齊寧:搜索引擎知識 網頁查重技術

2022-08-03    分類: 網站建設

對于搜索引擎來說,重復的網頁內容是非常有害的。重復網頁的存在意味著這些網頁就要被搜索引擎多處理一次。更有害的是搜索引擎的索引制作中可能會在索引庫里索引兩份相同的網頁。當有人查詢時,在搜索結果中就會出現重復的網頁鏈接。所以無論是從搜索體驗還是系統效率檢索質量來說這些重負網頁都是有害處的。

網頁查重技術起源于復制檢測技術,即判斷一個文件內容是否存在抄襲、復制另外一個或多個文件的技術。

1993年Arizona大學的Manber(Google現副總裁、工程師)推出了一個sif工具,尋找相似文件。1995年Stanford大學的Brin(Sergey Brin,Google創始人之一)和Garcia-Molina等人在“數字圖書觀”工程中首次提出文本復制檢測機制COpS(Copy protection System)系統與相應算法[Sergey Brin et al 1995]。之后這種檢測重復技術被應用到搜索引擎中,基本的核心技術既比較相似。

網頁和簡單的文檔不同,網頁的特殊屬性具有內容和格式等標記,因此在內容和格式上的相同相似構成了4種網頁相似的類型。

1、兩個頁面內容格式完全相同。

2、兩個頁面內容相同,但格式不同。

3、兩個頁面部分內容相同并且格式相同。

4、兩個頁面部分重要相同但格式不同。

實現方法:

網頁查重,首先將網頁整理成為一個具有標題和正文的文檔,來方便查重。所以網頁查重又叫“文檔查重”。“文檔查重”一般被分為三個步驟,一、特征抽取。二、相似度計算和評價。三、消重。

1.特征抽取

我們在判斷相似物的時候,一般是才能用不變的特征進行對比,文件查重第一步也是進行特征抽取。也就是將文檔內容分解,由若干組成文檔的特征集合表示,這一步是為了方面后面的特征比較計算相似度。

特征抽取有很多方法,我們這里主要說兩種比較經典的算法,“I-Match算法”、“Shingle算法”。

“I-Match算法”是不依賴于完全的信息分析,而是使用數據集合的統計特征來抽取文檔的主要特征,將非主要特征拋棄。

“Shingle算法”通過抽取多個特征詞匯,比較兩個特征集合的相似程度實現文檔查重。

2.相似度計算和評價

特征抽取完畢后,就需要進行特征對比,因網頁查重第二步就是相似度計算和評價。

I-Match算法的特征只有一個,當輸入一篇文檔,根據詞匯的IDF值(逆文本頻率指數,Inverse document frequency縮寫為IDF)過濾出一些關鍵特征,即一篇文章中特別高和特別低頻的詞匯往往不能反應這篇文章的本質。因此通過文檔中去掉高頻和低頻詞匯,并且計算出這篇文檔的的Hash值(Hash簡單的說就是把數據值映射為地址。把數據值作為輸入,經計算后即可得到地址值。),那些Hash值相同的文檔就是重復的。

Shingle算法是抽取多個特征進行比較,所以處理起來比較復雜一些,比較的方法是完全一致的Shingle個數。然后除以兩個文檔的Shingle總數減去一致的Shingle個數,這種方法計算出的數值為“Jaccard 系數”,它可以判斷集合的相似度。Jaccard 系數的計算方法集合的交集除以集合的并集。

3.消重

對于刪除重復內容,搜索引擎考慮到眾多收錄因素,所以使用了最簡單的最實用的方法。先被爬蟲抓取的頁面同時很大程度也保證了優先保留原創網頁。

網頁查重工作是系統中不可缺少的,刪除了重復的頁面,所以搜索引擎的其他環節也會減少很多不必要的麻煩,節省了索引存儲空間、減少了查詢成本、提高了pageRank計算效率。方便了搜索引擎用戶。

本文首發 齊寧網絡營銷策劃 www.qi-ning.com 轉載請注明作者信息。謝謝!

齊寧 MSN: i@qining.org

網站題目:齊寧:搜索引擎知識 網頁查重技術
瀏覽地址:http://m.kartarina.com/news29/184479.html

成都網站建設公司_創新互聯,為您提供建站公司虛擬主機面包屑導航網站建設關鍵詞優化Google

廣告

聲明:本網站發布的內容(圖片、視頻和文字)以用戶投稿、用戶轉載內容為主,如果涉及侵權請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網站立場,如需處理請聯系客服。電話:028-86922220;郵箱:631063699@qq.com。內容未經允許不得轉載,或轉載時需注明來源: 創新互聯

網站優化排名
主站蜘蛛池模板: 18禁无遮挡无码国产免费网站| 久久精品国产亚洲AV无码偷窥| 亚洲中文字幕在线无码一区二区| 久久亚洲AV成人无码| 国产精品成人99一区无码| 无码人妻精品一区二区三区夜夜嗨 | 东京热一精品无码AV| 成人无码精品1区2区3区免费看| 无码囯产精品一区二区免费| 久久久久久久久无码精品亚洲日韩| 韩国免费a级作爱片无码| 国精品无码一区二区三区左线| 亚洲AV无码成人网站在线观看| 无码专区中文字幕无码| av无码东京热亚洲男人的天堂| 亚洲国产精品无码观看久久| 国产午夜片无码区在线播放| 黑人无码精品又粗又大又长 | 影音先锋中文无码一区| 人妻无码一区二区视频| 亚洲aⅴ无码专区在线观看| 精品欧洲AV无码一区二区男男| 国产成人无码AⅤ片在线观看| 无码国内精品久久人妻麻豆按摩| 精品深夜AV无码一区二区老年| 亚洲av中文无码乱人伦在线播放| 天堂无码在线观看| 无码日韩精品一区二区人妻| 无码高潮少妇毛多水多水免费| 亚洲AV无码AV男人的天堂不卡 | 无码午夜人妻一区二区不卡视频| 无码av免费毛片一区二区| 人妻无码αv中文字幕久久| 久久青青草原亚洲AV无码麻豆| 国产成人无码一区二区在线播放 | 国模无码视频一区二区三区| 亚洲AV无码一区二区三区网址 | 无码AⅤ精品一区二区三区| 少妇人妻av无码专区| 国产在线精品无码二区二区| 免费无码又爽又黄又刺激网站|