搜索引擎蜘蛛是如何對翻頁式網頁進行抓取的

2021-12-07    分類: 網站建設

Spider系統的目標就是發現并抓取互聯網中一切有價值的網頁,百度官方也明確表示蜘蛛只可以抓取到盡可能多的有價值資源并保持系統及實際環境中頁面的一致性同時不給網站體驗造成壓力,也就是說蜘蛛不會抓取所有網站的所有頁面,對此蜘蛛有很多的抓取策略來盡量快而全的發現資源鏈接,提高抓取效率。只有這樣蜘蛛才能盡量滿足絕大部分網站,這也是為什么我們要做好網站的鏈接結構,接下來筆者就只針對一種蜘蛛對翻頁式網頁的抓住機制來發表一點看法。

為什么需要這個抓取機制

當前大多數網站都用翻頁的形式來有序分布網站資源,當有新文章增加時,老資源往后推移到翻頁系列中。對蜘蛛來說,這種特定類型的索引頁是爬行的有效渠道,但是蜘蛛爬行頻率和網站文章更新頻率不盡相同,文章鏈接很有可能就被推到翻頁條中,這樣蜘蛛不可能每天從第1個翻頁條爬到第80個,然后一個文章一個文章的抓取,到數據庫對比,這樣太浪費蜘蛛時間,也浪費你網站的收錄時間,所以蜘蛛需要對這種特殊類型的翻頁式網頁來一個額外的抓取機制,從而保證收錄資源的完全。

如何判斷是否是有序翻頁式頁面

判斷文章是否按發布時間有序排布是這類頁面的一個必要條件,下面會說到。那么如何判斷資源是否按發布時間有序排布呢有些頁面中每個文章鏈接后面跟隨著對應的發布時間,通過文章鏈接對應的時間集合,判斷時間集合是否按大到小或小到大排序,如果是的話,則說明網頁中的資源是按發布時間有序排布,反之亦然。就算沒寫發布時間,蜘蛛寫可以根據文章本身的實際發布時間進行判斷。

該抓取機制原理

針對這種翻頁式頁面,蜘蛛主要是通過記錄每次抓取網頁發現的文章鏈接,然后將此次發現的文章鏈接與歷史上發現的鏈接作比較,如果有交集,說明該次抓取發現了所有的新增文章,可以停止對后面翻頁條的抓取了;否則,說明該次抓取并未發現所有的新增文章,需要繼續抓取下一頁甚至下幾頁來發現所有的新增文章。聽起來可能有點不大懂,木木seo來舉個很簡單的例子,比如在網站翻頁目錄新添加了29篇文章,也就是說上次最新一篇是第30篇,而蜘蛛是一次性抓取10篇文章鏈接,這樣蜘蛛第一次進行抓取時抓了10篇,與上次并沒有交集,繼續抓取,第二次又抓10篇,也就是一共抓20篇了,還是與上一次沒有交集,然后繼續抓取,這一次就抓到了第30篇,也就是和上次的有交集了,這就說明蜘蛛已經抓取了從上次抓取到這次網站更新的全部29篇文章。

網頁名稱:搜索引擎蜘蛛是如何對翻頁式網頁進行抓取的
網頁鏈接:http://m.kartarina.com/news/139295.html

成都網站建設公司_創新互聯,為您提供外貿建站ChatGPT、品牌網站制作、定制網站、App開發、標簽優化

廣告

聲明:本網站發布的內容(圖片、視頻和文字)以用戶投稿、用戶轉載內容為主,如果涉及侵權請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網站立場,如需處理請聯系客服。電話:028-86922220;郵箱:631063699@qq.com。內容未經允許不得轉載,或轉載時需注明來源: 創新互聯

網站優化排名
主站蜘蛛池模板: 免费无码又爽又高潮视频| 精品少妇人妻AV无码专区不卡| 亚洲AV无码AV男人的天堂| 精品久久久久久无码人妻中文字幕| 亚洲heyzo专区无码综合| 国产AV无码专区亚洲AWWW| 无码国内精品久久人妻| 无码国产精品一区二区高潮| 无码人妻丰满熟妇区五十路百度| 久久久久亚洲AV片无码下载蜜桃| 熟妇人妻中文a∨无码| 人妻少妇看A偷人无码精品| 日韩成人无码中文字幕| 国产久热精品无码激情| 亚洲VA成无码人在线观看天堂| 无码人妻一区二区三区精品视频| 无码国产色欲XXXX视频| 无码丰满熟妇一区二区| 亚洲av无码不卡一区二区三区| 秋霞鲁丝片无码av| 中文字幕av无码一二三区电影 | 亚洲aⅴ无码专区在线观看春色 | 亚洲AV无码不卡在线播放| 亚洲?V无码成人精品区日韩 | 无码色偷偷亚洲国内自拍| 熟妇人妻AV无码一区二区三区| 久久精品无码一区二区app| 国产午夜无码专区喷水| 少妇无码?V无码专区在线观看| 中文字幕无码不卡免费视频 | 亚洲无码视频在线| 无码精品一区二区三区| 中字无码av电影在线观看网站| 久久无码无码久久综合综合 | 亚洲人成影院在线无码观看| 亚洲av无码专区在线观看下载 | 人妻少妇精品无码专区漫画| 无码中文字幕乱码一区| 国产精品无码久久久久久久久久| 亚洲av无码兔费综合| 久久久久无码精品国产h动漫 |