網頁抓取優先策略

2022-07-30    分類: 網站建設

網頁抓取優先策略也稱為“頁面選擇問題”(page Selection),通常是盡可能地首先抓取重要性的網頁,這樣保證在有限的資源內盡可能地照顧到那些重要性高的網頁。那么哪些網頁才是重要性高的呢?如何量化重要性呢?

重要性度量由鏈接歡迎度、鏈接重要度和平均鏈接深度這個方面決定。

定義鏈接歡迎度為IB(p),它主要由反向鏈接(Backinks)的數目和質量決定。首先考察數目,直觀地講,一個網頁有越多的鏈接指向它(反向鏈接數多),那么表示其他網頁對其的認可。同時這個網頁被網民訪問的機會就大,推測出其重要性也就越高;其次考察質量,如果被越多的重要性高的網指向,那么其重要性也就越高。如果不考慮質量,就會出現局部最優,而不是全局最優的問題。最典型的就是作弊網頁,人為地在一些網頁中設置了大量反策鏈接指向其自身的網頁,以提高該網頁的重要性。如果不考慮鏈接質量,就會被這些作弊者所利用。

定義鏈接重要度為IL(p),它是一個關于URL字符串的函數,僅僅考察字符串本身。鏈接重要度主要通過一些模式,比如認為包含“.COM”或者“HOME”的URL重要度高,以及具有較少斜杠(Slash)的URL重要度高等。

定義平均鏈接深度為ID(p),此為筆者所創。ID(p)表示在一個種子站點集合中,每個種子站點如果存在一條鏈路(寬度優先遍歷規則)到達該網頁,那么平均鏈接深度就是這個網頁的又一個重要性指標。因為距離種子站點越近,說明被訪問的機會越多,離種子站點越遠,重要性越低。事實上,按照寬度優先的遍歷規則即可滿足這種重要性高的網頁被優先抓取的需要。

最后,定義網頁重要性的度量為I(p),它由以上兩個量化值線性決定,即:

I(p)=a*IB(p)+β*IL(p)

平均鏈接深度同寬度優先的遍歷規則保證,因此不作為重要性評價的指標。在抓取能力有限的情況下,如果能夠把重要性高的網頁盡可能地抓完,是合理科學的,最終被用戶查詢到的網頁也往往是那些重要性高的網頁。

盡管這樣看來已經足夠好,事實上,還是忽視了一個重要的要素--時間。時間導致萬維網動態變化的一面。如何抓取那些新增的網頁呢?如何重訪那些被修改了的網頁呢?如何發現那些被刪除了的網頁呢?為了保持和萬維網網頁的同步變化,就必須有網頁重訪策略。通過該策略可以識別增加、修改及刪除網頁這3種網頁變化的情況。

文章題目:網頁抓取優先策略
分享網址:http://m.kartarina.com/news1/183451.html

成都網站建設公司_創新互聯,為您提供微信公眾號品牌網站建設服務器托管做網站商城網站面包屑導航

廣告

聲明:本網站發布的內容(圖片、視頻和文字)以用戶投稿、用戶轉載內容為主,如果涉及侵權請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網站立場,如需處理請聯系客服。電話:028-86922220;郵箱:631063699@qq.com。內容未經允許不得轉載,或轉載時需注明來源: 創新互聯

成都定制網站建設
主站蜘蛛池模板: 色综合99久久久无码国产精品| 潮喷失禁大喷水aⅴ无码| 亚洲Av无码国产一区二区| 亚洲AV无码专区在线播放中文| 丰满熟妇乱又伦在线无码视频| 少妇久久久久久人妻无码| HEYZO无码综合国产精品| 亚洲AV无码乱码在线观看代蜜桃| 国产品无码一区二区三区在线 | 永久免费av无码网站韩国毛片| 国产AV无码专区亚洲AV麻豆丫| 国产在线拍偷自揄拍无码| 无码一区二区三区爆白浆| 无码精品久久久天天影视| 久久久精品人妻无码专区不卡 | 久久久久无码精品国产app| 国产乱子伦精品无码码专区| 国产午夜无码片在线观看影院 | 无码中文2020字幕二区| 人妻无码久久一区二区三区免费| 精品无码专区亚洲| 精品欧洲av无码一区二区三区| 亚洲欧洲日产国码无码网站| 国产成人无码精品久久久免费 | 少妇极品熟妇人妻无码| 亚洲av极品无码专区在线观看| 亚洲AV无码欧洲AV无码网站| 熟妇人妻中文a∨无码| 国产成人年无码AV片在线观看| 无码中文人妻在线一区二区三区| AV无码人妻中文字幕| 69ZXX少妇内射无码| 亚洲一区二区三区无码国产| 特级无码毛片免费视频尤物| 亚洲AV永久无码精品成人| 无码专区—VA亚洲V天堂| 性无码一区二区三区在线观看| 亚洲AV无码精品色午夜在线观看| 亚洲精品午夜无码专区| 亚洲V无码一区二区三区四区观看 亚洲爆乳精品无码一区二区三区 亚洲爆乳无码一区二区三区 | 蕾丝av无码专区在线观看|