搜索引擎工作基本原理是怎樣的
本文章由seo優化按天扣費用戶上傳提供
對于一個SEO新手來說,你不需要考慮太多的東西,明白了偽原創也是制勝的法寶的真諦,了解獲取外鏈資源的方法,足以讓你受益匪淺。而隨著SEO工作的不斷深入,你也就會慢慢的發現充分利用好網絡給予你的一針一線的重要性。了解搜索引擎的工作原理,其意義自然
查看
seo按天計費
分享SEO,網絡營銷優化等互聯網的經驗學習
對于一個SEO新手來說,你不需要考慮太多的東西,明白了偽原創也是制勝的法寶的真諦,了解獲取外鏈資源的方法,足以讓你受益匪淺。而隨著SEO工作的不斷深入,你也就會慢慢的發現充分利用好網絡給予你的一針一線的重要性。了解搜索引擎的工作原理,其意義自然不在話下。
搜索引擎的工作原理,在我們的培訓中也經常會被提及,簡單來說,主要是三個步驟,爬行和抓取,預處理(因為索引是預處理中主要組成部分,故也有人將這一步稱為索引),排名。排名這一塊設計算法問題,暫且不去深究,這里主要說說爬行和抓取以及預處理兩個方面。
一、爬行和抓取
通過蜘蛛程序,各搜索引擎在訪問網站時都會先去查看網站根目錄下的robots.txt文件,從而獲取網站中被禁止爬取網址的信息。對于被禁止抓取部分的網址,不會被搜索引擎收錄,但是需要注意的一個現象是,百度目前會對部分將百度蜘蛛屏幕的網站以下列類似淘寶網的形式顯示,據個人不完全觀察發現,這種現象正逐漸變的普遍起來(特別強調一點,這不是說百度不遵守robots協議了,打開此類收錄網址的快照,你會發現快照為空)。
為了獲取更多的信息,蜘蛛會通過跟蹤頁面上的鏈接來抓取頁面。從理論上來說,蜘蛛可以通過鏈接抓取整個互聯網上的信息,但是在實際操作中,考慮到頁面的復雜程度,蜘蛛會采取深度抓取和廣度抓取兩種方式來進行頁面抓取的工作。為了避免重復爬行和抓取,搜索引擎會建立包括已發現但未被抓取以及已被抓取的兩個網頁地址庫進行參考對比,而被抓取的頁面會進入原始的頁面數據庫。到此為止,原始數據庫的建立就告一段落了。
二、預處理(索引)階段
原始數據庫建立完畢,搜索引擎會對網頁進行文字提取的處理,當然,除了頁面上顯示的文字外,搜索引擎還會對諸如meta標簽、flash替代文件,錨文本、alt標簽等部分的文字進行提取。提取文字完畢,便會進入下一個階段:分詞。
不管百度算法多么垃圾,但是不可否認的是,百度的中文分詞技術在搜索引擎中的霸主地位無人可以撼動。對于頁面上抓取到的文字,搜素引擎會進行分詞處理,比如將“瘦小腿方法”分為“瘦小腿”、“方法”兩個部分。而分詞的方法,一般會有詞典與統計兩種手段。詞典嘛,不需要太多解釋;至于統計,是指通過分析大量文本從而計算字與字之間相鄰出現的概率,概率越大,越容易形成一個詞。百度目前是將兩種方法結合使用,來達到佳的效果。
或許說到這里,大家會問,針對一些中文中常出現的詞,比如“的”、“了”、“呀”之類沒有實際意義但是使用頻率又很高的詞,會怎么樣處理呢?答案是剔除,從而提高搜索引擎的計算效率。
在瀏覽網頁的信息時,我們會發現,有一些板塊,在網站是重復出現的,比如“導航”、“廣告”等,這部分東西,對于所屬頁面的顯示內容來說,并沒有實際的意義。自然的,搜索引擎也會將此部分內容進行處理,從而篩選出所收錄頁面闡述表達內容的終文字部分。當然,文字部分篩選出來之后,搜索引擎還會對各個網頁上所顯示的終文字內容進行對比,從而刪除掉重復的內容進行顯示。
好了,經過上述的幾個步驟,就可以建立索引庫了,此時的索引會分為正向索引和倒排索引兩個階段。正向索引,可以簡單的理解為將收錄頁面的網址為主鍵,以該頁面上進行分詞處理之后的結果為內容建立起的數據庫,如下圖所示。
正向索引結束,我們可以發現還不能用于排名,這時就需要倒排索引,即以關鍵詞為主鍵,以包含該關鍵詞的網址及對應內容為內容建立索引數據庫,如下圖所示
至此,搜索引擎再通過對鏈接分析以及特殊文件的處理,預處理(索引)階段也就落下帷幕了。從中我們也可以看出,深入了解了搜索引擎原理,對于日常的SEO工作理解以及啟發作用還是十分明顯的。比如,你在偽原創的過程中,只是草草的給一些文章加一些簡單的助詞或者對小部分的文字內容進行簡單的修改,不好意思,你的文章在預處理甚至是爬行和抓取階段就被pass了。
“聲明: 本文是(順的推seo)原創,請尊重作者版權,文明轉載也是一種美德。轉載請保留鏈接!