搜索引擎工作原理什么?網絡爬蟲,“蜘蛛”又是什么?

2022-06-14 分類：網站建設

當我們在輸入框中輸入關鍵詞，點擊搜索或查詢時，然后得到結果。深究其背后的故事，搜索引擎做了很多事情。

首先在互聯網中發現、搜集網頁信息；同時對信息進行提取和組織建立索引庫；再由檢索器根據用戶輸入的查詢關鍵字，在索引庫中快速檢出文檔，進行文檔與查詢的相關度評價，對將要輸出的結果進行排序，并將查詢結果返回給用戶。

在搜索引擎網站，比如百度，在其后臺有一個非常龐大的數據庫，里面存儲了海量的關鍵詞，而每個關鍵詞又對應著很多網址，這些網址是百度程序從茫茫的互聯網上一點一點下載收集而來的，這些程序稱之為“搜索引擎蜘蛛”或“網絡爬蟲”。

這些勤勞的“蜘蛛”每天在互聯網上爬行，從一個鏈接到另一個鏈接，下載其中的內容，進行分析提煉，找到其中的關鍵詞，如果“蜘蛛”認為關鍵詞在數據庫中沒有而對用戶是有用的便存入數據庫。反之，如果“蜘蛛”認為是垃圾信息或重復信息，就舍棄不要，繼續爬行，尋找最新的、有用的信息保存起來提供用戶搜索。當用戶搜索時，就能檢索出與關鍵字相關的網址顯示給訪客。

一個關鍵詞對用多個網址，因此就出現了排序的問題，相應的當與關鍵詞最吻合的網址就會排在前面了。在“蜘蛛”抓取網頁內容，提煉關鍵詞的這個過程中，就存在一個問題：“蜘蛛”能否看懂。如果網站內容是flash和js，那么它是看不懂的，會犯迷糊，即使關鍵字再貼切也沒用。相應的，如果網站內容是它的語言，那么它便能看懂，它的語言即SEO。

搜索引擎的基本工作原理包括如下三個過程：

抓取網頁。每個獨立的搜索引擎都有自己的網頁抓取程序爬蟲（spider）。爬蟲Spider順著網頁中的超鏈接，從這個網站爬到另一個網站，通過超鏈接分析連續訪問抓取更多網頁。被抓取的網頁被稱之為網頁快照。由于互聯網中超鏈接的應用很普遍，理論上，從一定范圍的網頁出發，就能搜集到絕大多數的網頁。

處理網頁。搜索引擎抓到網頁后，還要做大量的預處理工作，才能提供檢索服務。其中，最重要的就是提取關鍵詞，建立索引庫和索引。其他還包括去除重復網頁、分詞（中文）、判斷網頁類型、分析超鏈接、計算網頁的重要度/豐富度等。

提供檢索服務。用戶輸入關鍵詞進行檢索，搜索引擎從索引數據庫中找到匹配該關鍵詞的網頁；為了用戶便于判斷，除了網頁標題和URL外，還會提供一段來自網頁的摘要以及其他信息。

新聞名稱：搜索引擎工作原理什么?網絡爬蟲,“蜘蛛”又是什么?
當前鏈接：http://m.kartarina.com/news/167125.html

成都網站建設公司_創新互聯，為您提供靜態網站、企業建站、全網營銷推廣、App設計、面包屑導航、手機網站建設

聲明：本網站發布的內容（圖片、視頻和文字）以用戶投稿、用戶轉載內容為主，如果涉及侵權請盡快告知，我們將會在第一時間刪除。文章觀點不代表本網站立場，如需處理請聯系客服。電話：028-86922220；郵箱：631063699@qq.com。內容未經允許不得轉載，或轉載時需注明來源：創新互聯

猜你還喜歡下面的內容