全面解讀站長論壇BaiduSpider與站點死鏈,網站seo
本文章由SEO優化指導用戶上傳提供
具體內容如下:
問:robots屏蔽對阻止百度抓取死鏈是否有效
答:當然有效,百度嚴格遵守robots協議,若發現百度依然抓取,先確認是否為Baiduspider,若確認,可以通過反饋中心進行投訴。
如何正確識別Baiduspider移動ua?
新版移動ua:
Mozilla/5.0 (Linux;u;Android 4.2.2;zh-cn;)AppleWebKit/534.46 (KHTML,like Gecko) Version/5.1 MobileSafari/10600.6.3 (compatible; Baiduspider/2.0;+)
PC ua:
Mozilla/5.0 (compatible; Baiduspider/2.0; +)
之前通過“+”進行識別的網站請注意!您需要修改識別方式,新的正確的識別Baiduspider移動ua的方法如下:
1. 通過關鍵詞“Android”或者“Mobile”來進行識別,判斷為移動訪問或者抓取。
2. 通過關鍵詞“Baiduspider/2.0”,判斷為百度爬蟲。
另外需要強調的是,對于robots封禁,如果封禁的agent是Baiduspider,會對PC和移動同時生效。即,無論是PC還是移動Baiduspider,都不會對封禁對象進行抓取。之所以要強調這一點,是發現有些代碼適配站點(同一個url,PC ua打開的時候是PC頁,移動ua打開的時候是移動頁),想通過設置robots的agent封禁達到只讓移動Baiduspider抓取的目的,但由于PC和移動Baiduspider的agent都是Baiduspider,這種方法是非常不可取的。
如何識別為百度spider?
百度蜘蛛對于站長來說可謂上賓,可是我們曾經遇到站長這樣提問:我們如何判斷瘋狂抓我們網站內容的蜘蛛是不是百度的?其實站長可以通過DNS反查IP的方式判斷某只spider是否來自百度搜索引擎。根據平臺不同驗證方法不同,如linux/windows/os三種平臺下的驗證方法分別如下:
1、在linux平臺下,您可以使用h如何做公眾號ostip命令反解ip來判斷是否來自Baiduspider的抓取。Baiduspider的hostname以*.baidu.com或*.baidu.jp的格式命名,非*.baidu.com或*.baidu.jp即為冒充。
2、在windows平臺或者IBMOS/2平臺下,您可以使用nslookupip命令反解ip來判斷是否來自Baiduspider的抓取。打開命令處理器輸入nslookupxxx.xxx.xxx.xxx(IP地址)就能解析ip,來判斷是否來自Baiduspider的抓取,Baiduspider的hostname以*.baidu.com或*.baidu.jp的格式命名,非*.baidu.com或*.baidu.jp即為冒充。
3、 在macos平臺下,您可以使用dig命令反解ip來判斷是否來自Baiduspider的抓取。打開命令處理器輸入digxxx.xxx.xxx.xxx(IP地址)就能解析ip,來判斷是否來自Baiduspider的抓取,Baiduspider的hostname以*.baidu.com或*.baidu.jp的格式命名,非*.baidu.com或*.baidu.jp即為冒充。
問:已被百度抓取的死鏈,可以通過robots屏蔽的方式讓百度刪除嗎?
答:不建議你這樣做,快有效的方法是通過百度站長平臺死鏈提交工具(地址:)進行處理
問:我已經通過死鏈工具進行提交了,可是通過日志發現百度還是在抓我們的死鏈
答:您提交規則后,spider為了驗證鏈接是否真的死掉,需要抓一部分回來驗證。
問:百度對死鏈的抓取,對正常文章抓取的影響會有多大。
答:這個沒有統一的標準,如果你沒有設置robots也沒有向百度提交,死鏈量還特別巨大的時候,有可能會占用你網站大量抓取配額,導致正常內容無法抓取。如果僅僅是spider為了驗證死鏈規則抓一部分,那么對正常內容不會造成影響。
問:百度對死鏈的要求是什么?怎么設置死鏈效果?
答:目前百度支持協議死鏈、內容死鏈和跳轉死鏈,其中效果的是協議死鏈。
百度標準死鏈官方文檔:
幾乎所有網站都會出現不再需要展現的網頁,如何處理這樣的網頁也成為站長經常談論的話題。為此,百度站長學院專訪了負責死鏈識別處理的工程師,了解到百度眼中的死鏈其實包括三種:協議死鏈、內容死鏈、跳轉死鏈,每種都有門道哦,同時了解到目前比較流行的“個性化死鏈”對百度并不友好(后面會有詳細介紹)。在此我們向各位站長呼吁,盡可能全面地通過百度站長平臺死鏈提交工具提交協議死鏈、內容死鏈和跳轉死鏈,網站在百度搜索引擎的可訪性和價值得到提升,以獲得更高的用戶評價。
第1,協議死鏈:
協議死鏈是指通過HTTP協議狀態碼明確表示網頁已無閱讀價值。HTTP協議狀態碼很多,但百度協議死鏈首推404,即未找到文件。請盡量不要用其它狀態碼來代表死鏈。
第二,內容死鏈:
內容死鏈主要是由網站自身變化引起的,網頁可以正常打開未發生跳轉,但頁面內容對爬蟲來說沒有收錄價值,對用戶來說也沒有參考價值,如帖子被刪除、內容已轉移、空間被關閉、信息已過期、交易已關閉等。在這樣無有價值信息的網頁上,網站應該在明顯位置直接給予提示文字,如:
·頁面不存在(網頁不存在)
·內容已轉移
·帖子已刪除
·域名過期或出售
·空間被關閉
·網站要備案
·信息已過期
·交易已關閉
在給各位站長看標準內容死鏈的典型范例之前,先說一個對百度不友好的做法:現在很多網站追求個性化和用戶體驗,在頁面內容失效后并未做協議死鏈處理,也就是說返回狀態碼依然是200,僅僅是在頁面上做了一個有趣的個性化圖片,通過圖片告訴用戶這個頁面沒有有價值內容——百度不會認為這是一個內容死鏈,不提倡大家這樣做。
典型范例1:
以下便是內容死鏈的典型范例,大家感受一下,需要著重強調的是:站長在申請取消閉站保護的時候,百度除了檢測站內協議死鏈外,還會同時檢查內容死鏈的比例和數量。即使您不使用閉站保護功能,百度也提倡大家踴躍提交內容死鏈,以保證站點評級的穩定。
第三,跳轉死鏈
跳轉死鏈是指網站將無閱讀價值的頁面統一跳轉到某一個頁面,如前一級目錄面、首頁等等,跳轉前后的兩個網頁主體內容不同,不存在可替代的關系。除了404協議死鏈和內容死鏈外,站長還需要向百度提交跳轉死鏈。
問:百度站長平臺是否有工具幫助我們發現網站內的未知死鏈?
答:可以通過鏈接分析工具中的死鏈分析功能(地址:),還有抓取異常工具(地址:)進行發現分析
除非注明,否則均為SEO優化顧問服務_零基礎SEO優化指導【順的推SEO】真實故事改編,轉載必須以鏈接形式標明本文鏈接。