seo優化公司:爬蟲質量的評價標準

2023-08-17    分類: 網站建設

爬蟲質量的評價標準

如果從搜索引擎用戶體驗的角度考慮,對爬蟲的工作效果有不同的評價標準,其中最主要的 3 個標準是:抓取網頁的覆蓋率、抓取網頁時新性及抓取網頁重要性。如果這 3 方面做得好,則搜索引擎用戶體驗必定好。

對于現有的搜索引擎來說,還不存在哪個搜索引擎有能力將互聯網上出現的所有網頁都下載并建立索引,所有搜索引擎只能索引互聯網的一部分。而所謂的抓取覆蓋率指的是爬蟲抓取網頁的數量占互聯網所有網頁數量的比例,覆蓋率越高,等價于搜索引擎的召回率越高,用戶體驗越好。

索引網頁和互聯網網頁對比

抓取到本地的網頁,很有可能已經發生變化,或者被刪除,或者內容被更改,因為爬蟲抓取完一輪需要較長的時間周期,所以抓取到的網頁當中必然會有一部分是過期的數據,即不能在網頁變化后第一時間反應到網頁庫中。所以網頁庫中過期的數據越少,則網頁的時新性越好,這對用戶體驗的改善大有裨益。

如果時新性不好,搜索到的都是過期數據,或者網頁被刪除,用戶的內心感受可想而知。

互聯網盡管網頁繁多,但是每個網頁的差異性都很大,比如來自騰訊、網易新聞的網頁和某個作弊網頁相比,其重要性猶如天壤之別。如果搜索引擎抓取到的網頁大部分是比較重要的網頁,則可以說明在抓取網頁重要性方面做得比較好。這方面做的越好,則越說明搜索引擎的搜索精度越高。

通過以上 3 個標準的說明分析,可以將爬蟲研發的目標簡單描述如下:在資源有限的情況下,既然搜索引擎只能抓取互聯網現存網頁的一部分,那么就盡可能給選擇比較重要的那部分頁面來索引;對于已經抓取到的網頁,盡可能快的更新內容,使得索引網頁和互聯網對應頁面內容同步更新;在此基礎上,盡可能擴大抓取范圍,抓取到更多以前無法發現的網頁。

3 個“盡可能”基本說清楚了爬蟲系統為增強用戶體驗而奮斗的目標。

大型商業搜索引擎為了滿足 3 個質量標準,大都開發了多套針對性很強的爬蟲系統。以Google為例,至少包含兩套不同的爬蟲系統:一套被稱為Fresh Bot,主要考慮網頁的時新性,對于內容更新頻繁的網頁,目前可以達到以秒計的更新周期;另外一套被稱之為Deep Crawl Bot,主要針對更新不是那么頻繁的網頁抓取,以天為更新周期。

除此之外,Google投入了很大精力研發針對暗網的抓取系統,

分享文章:seo優化公司:爬蟲質量的評價標準
網站鏈接:http://m.kartarina.com/news13/276563.html

成都網站建設公司_創新互聯,為您提供軟件開發ChatGPT品牌網站制作外貿網站建設品牌網站設計企業建站

廣告

聲明:本網站發布的內容(圖片、視頻和文字)以用戶投稿、用戶轉載內容為主,如果涉及侵權請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網站立場,如需處理請聯系客服。電話:028-86922220;郵箱:631063699@qq.com。內容未經允許不得轉載,或轉載時需注明來源: 創新互聯

網站建設網站維護公司
主站蜘蛛池模板: 全免费a级毛片免费看无码| 国产精品无码久久四虎| 久久久无码精品人妻一区| 18禁无遮拦无码国产在线播放| 午夜无码中文字幕在线播放| 精品亚洲A∨无码一区二区三区| 亚洲性无码AV中文字幕| 精品久久久久久无码中文字幕漫画| 亚洲av成人中文无码专区| 手机在线观看?v无码片| 亚洲AV无码乱码国产麻豆| 中文字幕乱妇无码AV在线| 国产成人无码av在线播放不卡| 亚洲精品一级无码中文字幕| 久久无码av三级| 国产在线精品无码二区二区| 寂寞少妇做spa按摩无码| 高清无码午夜福利在线观看 | 中文午夜人妻无码看片| 精品无码成人久久久久久 | 92午夜少妇极品福利无码电影| 国产精品无码久久四虎| 久久久久无码国产精品一区| 亚洲最大av无码网址| 久久精品无码免费不卡| 亚洲中文字幕无码一去台湾| 少妇无码太爽了在线播放| 中文字幕无码高清晰| 国产无遮挡无码视频免费软件| 日韩亚洲AV无码一区二区不卡| 成人无码午夜在线观看| 国产免费久久久久久无码| 一本大道无码日韩精品影视_| 丰满少妇人妻无码专区| 日本无码一区二区三区白峰美| 人妻丰满熟妇AV无码区乱| 久久亚洲精品无码AV红樱桃| 性无码专区无码片| 亚洲中文字幕久久精品无码2021 | 无套内射在线无码播放| 国产成A人亚洲精V品无码性色 |