講解網(wǎng)站seo優(yōu)化百度專利關(guān)于重復(fù)檢測!
本文章由seo優(yōu)化按天扣費(fèi)用戶上傳提供
在(2011)之前一般是通過比較兩個頁面的內(nèi)容和節(jié)點(diǎn),來確認(rèn)兩個頁面的相似度。這種方法能夠計算得比較準(zhǔn)確,可時間復(fù)雜度太高,計算很費(fèi)時間。通過對一個頁面中的某些重要信息進(jìn)行簽名,然后比較兩個頁面的簽名,來計算相似度,這種方式比較簡單 高效,計算速度比較快,比較適合互聯(lián)網(wǎng)這種海量信息的應(yīng)用場景!
在百度專利《一種網(wǎng)頁重復(fù)的判斷系統(tǒng)及其判斷方法 》(申請?zhí)?201110031636.9 )中使用了新的方法對網(wǎng)頁庫中的網(wǎng)頁進(jìn)行重復(fù)檢測.
首先是對待檢測的網(wǎng)頁進(jìn)行正文提取,正文提取的方法就是對網(wǎng)頁進(jìn)行分塊,然后獲取正文塊,然后提取正文塊中的文章.
提取到文章內(nèi)容后,對正文進(jìn)行分句,然后對每一個句子進(jìn)行轉(zhuǎn)換和過濾(特殊字符),對較長的一個或幾個句子進(jìn)行Hash簽名,以獲得網(wǎng)頁正文句子簽名.
接著把正文句子簽名相同的文章分為一個類,我們稱之為網(wǎng)頁集,對該網(wǎng)頁集下的文章再進(jìn)行下一步的判斷,這里還得再計算一些簽名
1.網(wǎng)頁正文的simhash簽名
2.真實(shí)標(biāo)題的hash簽名
3.標(biāo)簽標(biāo)題的hash簽名
4.網(wǎng)頁摘要的hash簽名
5.網(wǎng)頁內(nèi)容的hash簽名
6.位置簽名的hash簽名
7.評論信息的hash簽名
8.資源簽名(資源簽名是通 過對網(wǎng)頁中的圖片資源、聲音資源、視頻資源或下載鏈接資源的 url 進(jìn)行 hash 簽名運(yùn)算獲得)
9.URL文件名的hash簽名(url文件名簽名是通過對網(wǎng)頁的 url 中的文件名進(jìn)行 hash 簽名運(yùn)算獲得)
講解網(wǎng)站seo優(yōu)化百度專利關(guān)于重復(fù)檢測!
這些計算完了,就可以進(jìn)行下一步的判斷了,真重復(fù)的網(wǎng)頁舉例:
1、兩個網(wǎng)頁的真實(shí)標(biāo)題簽名相同。
2、兩個網(wǎng)頁的網(wǎng)頁內(nèi)容簽名相同。
3、兩個網(wǎng)頁的網(wǎng)頁正文簽名(simhash)的不同位數(shù)小于 6。
4、兩個網(wǎng)頁的網(wǎng)頁位置簽名相同,并且 url 文件名簽名相同。
5、評論塊簽名、資源簽名、標(biāo)簽標(biāo)題簽名、摘要簽名、url 文件名簽名中有三個簽名相同。
講解網(wǎng)站seo優(yōu)化百度專利關(guān)于重復(fù)檢測!
通過兩兩頁面比較,可以得到真重復(fù) url 的集合。一般來說,如果這個真重復(fù) url 集合中的網(wǎng)頁的數(shù)量 / 整個網(wǎng)頁集中網(wǎng)頁的數(shù)量> 30%,則認(rèn)為整個網(wǎng)頁集都是真重復(fù), 否則就是假重復(fù)。
“聲明: 本文是(順的推seo)原創(chuàng),請尊重作者版權(quán),文明轉(zhuǎn)載也是一種美德。轉(zhuǎn)載請保留鏈接!
主營業(yè)務(wù): 排名提升、 網(wǎng)站建設(shè)、 網(wǎng)站推廣、 首頁優(yōu)化、 抖音下拉詞、 抖音SEO