「SEO」Robots.txt文件進階使用方法!
本文章由SEO優化指導用戶上傳提供
關于Robots.txt在網站SEO優化中所發揮的作用和重要性,我們不再一一闡述了,SEO今天主要來和大家聊一聊它的高級用法,也可以叫做進階使用方法吧。
「SEO」Robots.txt文件進階使用方法
robots.txt文件高級應用robots.txt使用要點總結
在介紹進階使用方法之前,我們先來回顧一下robots.txt的使用要點:
1)文件名必須為小寫。不能是RoBotS.TXT。
2)每個域名(不管是不是子域名)都只能有一個robots.txt文件,放置于網站根目錄。yourname.com的robots.txt對abc.yourname.com沒有約束。
3)每種協議都可以有一個robots.txt。如和https://yourname.com可以分別有一個robots.txt。
4)每個端口可以有一個robots.txt。如和:8080可以分別有一個robots.txt。
5)user-agent的名稱以及user-agent,allow,disallow,crawl-delay,sitemap這些指示符的大小寫不敏感。
6)robots.txt所包含的URL為大小寫敏感。分清大小寫才能有效排除索引。
7)allow和disallow的URL必須是不包括協議、域名、端口的路徑。disallow: 就錯了。改為disallow: /abc.htm
8)sitemap必須包括從http或https開始的完整的URL。
9)robots.txt不是死鏈提交工具,想要刪除死鏈索引還是應該登陸各搜索引擎站長平臺提交。
10)robots.txt只做減法,有沒有這個文件的區別即是去不去做這個排除。刪除robots.txt意味著完全開放爬蟲漫游。
11)robots.txt只防君子不防小人。歷史上發生過多次違反robots.txt的事件。網站要把機密信息放到登陸后。
12)要想嚴格不讓搜索引擎索引還是推薦用noindex標簽。但是百度并不支持。
13)crawl-delay并不被谷歌和百度支持,Yandex和Bing則支持。Yandex還支持host指示符來表示偏好的域名。
14)符號#用于注釋。后面的內容會被忽略。
robots.txt指令中看不見的通配符*
這里要說的是通配符*。它代表任意長度的任意字符。請注意每一行allow,disallow之后都有一個看不見的*。
也就是說如果你寫了disallow: /seo/,那么下面的內容就會影響到所有以/seo/開頭的URL,比如:
但是也有例外的情況,那就是allow和disallow之后沒有任何賦值的情況。比如下面這種寫法:
User-agent: * Disallow: /cyberworld/map/ # This is an infinite virtual URL space
# Cybermapper 可以訪問任意頁面
User-agent: cybermapper Disallow:合并多個User-Agent
如果你有多個討厭的機器人在抓取你的網頁消耗你的資源,那你可能會通過disallow屏蔽他們(當然要他們是君子的前提下)。你可以通過user-agent一次性把他們屏蔽。
User-agent: bad-bot-a User-agent: bad-bot-b Disallow: /
這種寫法在當你有多個user-agent,每個雖然都比較復雜但是都一樣的情況下顯得很有用。
User-agent: bad-bot-a User-agent: bad-bot-b Disallow: /XXX
這樣你就可以讓robots.txt變得簡潔。
為不同的搜索引擎訂制不同的Sitemap
如果我們想讓某些搜索引擎只訪問特定的sitemap,這種情況下該如何處理呢?除了在站長平臺提交網站地圖,我們還可以在robots.txt內實現。別忘了sitemap文件也是一個資源,我們一樣可以用disallow去屏蔽掉。假定我們給百度的網站地圖是sitemap-bd.xml文件,其他搜索引擎的地圖文件是sitemap.xml,我們可以通過下面的方式來實現:
User-agent: * Disallow: /sitemap-bd.xml User-agent: baiduspider Disallow: /sitemap.xml Sitemap: Sitemap:
這樣一來站點就有專門針對百度可見的地圖文件了,而其他搜索引擎抓取的是另外一個網站地圖文件。
Sitemap太大了該怎么辦?
我們知道,一般來說搜索引擎對站點地圖的大小和所包含的URL的數量都有所限制。比如百度對單個sitemap文件的限制是五萬條URL和10MB的文件大小。在這種情況下,你可以在robots.txt中給出多個sitemap文件的URL。除了這種分拆方式,你還可以使用sitemap索引文件,比如下面這個例子。
「SEO」Robots.txt文件進階使用方法
多個站點地圖制作索引壓縮例子
其他主流的搜索引擎也認這個索引格式。
那么問題來了,即便是這樣,文件多且大,傳輸會變得非常沒有效率。為了解決這個問題我們可以對站點地圖進行GZIP壓縮。像7-zip這樣的壓縮工具都可以對文件壓縮。需要注意的是在壓縮前你的單個站點地圖文件仍然必須小于10MB并且包含URL數量小于五萬條。
除非注明,否則均為SEO優化顧問服務_零基礎SEO優化指導全網營銷【順的推SEO】真實故事改編,轉載必須以鏈接形式標明本文鏈接。