網(wǎng)頁結(jié)構(gòu)化的過程即有價值信息被保留的過程

2023-09-14    分類: 網(wǎng)站建設(shè)

向大家介紹過網(wǎng)頁結(jié)構(gòu)化的目標(biāo),結(jié)構(gòu)化的過程就是網(wǎng)站有價值信息被保留的過程,今天之所以又用這樣的標(biāo)題來寫一篇文章,其實(shí)是有目的的,是想再次的提醒網(wǎng)站seo優(yōu)化人員,搜索引擎工作原理是做好網(wǎng)站優(yōu)化工作的基礎(chǔ)。
現(xiàn)在不比前幾年,一說網(wǎng)站優(yōu)化一說SEO優(yōu)化,改改title,discription,keyword,發(fā)發(fā)外鏈,網(wǎng)頁的排名效果就會有。但現(xiàn)在僅僅指望這點(diǎn)已經(jīng)不起作用了,人人都會的東西,你再拿出來作為自己的優(yōu)勢,實(shí)際上是落伍了,再加上黑帽seo優(yōu)化的猖獗,針對百度的優(yōu)化,針對google的優(yōu)化層出不窮,搜索引擎也在不斷的調(diào)整著算法。要做SEO優(yōu)化的前鋒戰(zhàn)士,根據(jù)互聯(lián)網(wǎng)的發(fā)展變化,時時保持清醒的頭腦,吸收新的知識,只有這樣網(wǎng)站的優(yōu)化效果才可能在你的控制之中。
話回正題,來簡單解釋一下,網(wǎng)頁結(jié)構(gòu)化的過程即有價值信息被保留的過程。明白了網(wǎng)頁結(jié)構(gòu)化的目標(biāo)后,就應(yīng)該明白,體現(xiàn)網(wǎng)頁本身價值和內(nèi)容的5個屬性被抽取出來,即,標(biāo)題(title)、錨文本(anchor text)、正文標(biāo)題(content title)、正文(content)和正向鏈接(link)。對搜索引擎來說,這5個屬性就是有價值的信息(當(dāng)然,也是對用戶有價值的內(nèi)容)。
我們來具體看一下網(wǎng)頁結(jié)構(gòu)化是如何進(jìn)行的?
網(wǎng)頁結(jié)構(gòu)化的過程首先通過標(biāo)簽樹進(jìn)行分析得到文本對應(yīng)的標(biāo)簽,然后通過投票算法確定正文及配圖等僅從HTML標(biāo)簽無法判斷的網(wǎng)頁數(shù)據(jù)。以下是專業(yè)人士總結(jié)的兩步走:
HTML標(biāo)簽樹
一、 建立html標(biāo)簽樹(tag-tree)。
萬維網(wǎng)上大多數(shù)的靜態(tài)網(wǎng)頁都以HTML網(wǎng)頁形式存在,HTML是一種標(biāo)識語言(Markup Language),它把其描述的全部內(nèi)容都按照HTML語法存放在標(biāo)簽之中。為了更清楚地描述網(wǎng)頁內(nèi)容的組織結(jié)構(gòu),將網(wǎng)頁中的標(biāo)簽按照出現(xiàn)順序依次整理出來并用適當(dāng)?shù)慕Y(jié)構(gòu)記錄。由于標(biāo)簽之間的嵌套關(guān)系,因此整理結(jié)果自然是一個樹狀結(jié)構(gòu),我們把整理一個網(wǎng)頁中的標(biāo)簽得到的樹狀結(jié)構(gòu)稱為該網(wǎng)頁的“標(biāo)簽樹”。
很顯然,查看該網(wǎng)頁的用戶看到的是相當(dāng)友好的信息。而實(shí)際源文件中的那些HTML標(biāo)記,如和(可以理解為用來幫助IE瀏覽器理解網(wǎng)頁)等都不會實(shí)際地展示給用戶。因此搜索引擎的分析系統(tǒng)需要學(xué)習(xí)IE瀏覽器理解網(wǎng)頁的方式來理解網(wǎng)頁,在理解過程中需要建立一個HTML標(biāo)簽樹的樹形結(jié)構(gòu)。通過建立標(biāo)簽樹,并且識別標(biāo)簽所描述的文字,網(wǎng)頁結(jié)構(gòu)化進(jìn)程就走出了重要的一步,能夠順利提取出了網(wǎng)頁的標(biāo)題。但實(shí)際的網(wǎng)頁,同一個標(biāo)簽所描述的文字內(nèi)容不是唯一確定的,比如廣告內(nèi)容也可能放在標(biāo)簽里,而這不是真正的正文,是會影響用戶的搜索體驗,所以就有了下面投票法得正文。
二、通過投票方法識別正文的文本塊,并按照深度優(yōu)先遍歷的規(guī)則組織為正文。
判斷哪個文本塊是正文采用稱為“投票算法”的計算方法,這種方法在搜索引擎別常用。在日常生活中幾乎所有人都會有投票或選舉的經(jīng)歷,如選舉干部和通過決議需要投票,以及運(yùn)動員的一套動作需要裁判員打分等。其基本原理在于認(rèn)為大多數(shù)人的意見往往是正確的。大多數(shù)人的統(tǒng)一主觀意見就會變得較為客觀。雖然每個人的給出的分?jǐn)?shù)是主觀產(chǎn)生的,但是這種評判的方法和結(jié)果被認(rèn)為是相對客觀和可信的。正文抽取的投票算法的過程如何呢?首先搜索引擎會定義一系列的規(guī)則,然后通過這些規(guī)則為每個文本塊打分。得分最高的被認(rèn)為是正文的可能性足夠大,并且可以接受。搜索引擎定的規(guī)則,也是需要通過足夠多的網(wǎng)頁進(jìn)行反饋,之后才能得到一個公正客觀的打分。由于HTML標(biāo)簽的相互嵌套的特性,決定了深度優(yōu)先遍歷的順序恰好能夠組織成一個完整的正文。

分享題目:網(wǎng)頁結(jié)構(gòu)化的過程即有價值信息被保留的過程
網(wǎng)站路徑:http://m.kartarina.com/news7/282957.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供企業(yè)建站ChatGPT虛擬主機(jī)網(wǎng)站收錄品牌網(wǎng)站設(shè)計網(wǎng)站內(nèi)鏈

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請盡快告知,我們將會在第一時間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時需注明來源: 創(chuàng)新互聯(lián)

外貿(mào)網(wǎng)站制作
主站蜘蛛池模板: 亚洲成AV人在线播放无码| 国产精品成人无码久久久久久| 熟妇人妻AV无码一区二区三区| 无码中文字幕乱在线观看| 亚洲精品自偷自拍无码| 国产日韩精品无码区免费专区国产 | 久久精品aⅴ无码中文字字幕不卡 久久精品aⅴ无码中文字字幕重口 | 亚洲Av无码乱码在线播放| 无码人妻精品一区二区三区在线| 久久久精品天堂无码中文字幕| 无码成人一区二区| 国产高清无码毛片| 久久精品无码一区二区WWW| 人妻无码人妻有码中文字幕| 中文无码字慕在线观看| 国精品无码A区一区二区| 人妻无码久久久久久久久久久 | 亚洲中文字幕无码一区二区三区 | 91久久九九无码成人网站| 中文字幕精品无码一区二区三区| 蜜臀AV无码精品人妻色欲| 日韩av无码一区二区三区 | 18禁超污无遮挡无码免费网站国产| 无码国内精品人妻少妇蜜桃视频| 国产精品一级毛片无码视频 | 亚洲中久无码不卡永久在线观看| 无码中文字幕av免费放| 精品无码久久久久久尤物| 亚洲熟妇无码八AV在线播放| 免费无码H肉动漫在线观看麻豆| 精品人妻无码专区在中文字幕| 无码狠狠躁久久久久久久| 精品亚洲av无码一区二区柚蜜| 无码一区二区三区免费视频| 亚洲精品无码专区久久| 永久免费av无码网站韩国毛片| 无码一区二区三区在线| 无码人妻精品丰满熟妇区| 人妻av无码专区| 十八禁视频在线观看免费无码无遮挡骂过 | 国产羞羞的视频在线观看 国产一级无码视频在线 |