通過了解搜索引擎基本工作原理掌握SEO優化技巧
本文章由SEO優化指導用戶上傳提供
對于一個SEO新手來說,你不需要考慮太多的東西,明白了偽原創也是制勝的法寶的真諦,了解獲取外鏈資源的方法,足以讓你受益匪淺。而隨著SEO工作的不斷深入,你也就會慢慢的發現充分利用好網絡給予你的一針一線的重要性。了解搜索引擎的工作原理,其意義自然不在話下。
搜索引擎的工作原理,簡單來說,主要是三個步驟:首先在互聯網中發現、搜集網頁信息;同時對信息進行提取和組織建立索引庫;再由檢索器根據用戶輸入的查詢關鍵字,在索引庫中快速檢出文檔,進行文檔與查詢的相關度評價,對將要輸出的結果進行排序,并將查詢結果返回給用戶。排名這一塊設計算法問題,暫且不去深究,這里主要說說爬行和抓取以及預處理兩個方面。
搜索引擎爬行和抓取原理
通過蜘蛛程序,各搜索引擎在訪問網站時都會先去抓取網站根目錄下的robots.txt文件,從而獲取網站中被禁止爬取網址的信息。對于被禁止抓取部分的網址,不會被搜索引擎收錄。
每個獨立的搜索引擎都有自己的網頁抓取程序爬蟲(spider)。為了獲取更多的信息,蜘蛛會通過順著頁面上的鏈接來抓取頁面。從理論上來說,蜘蛛可以通過鏈接抓取整個互聯網上的信息,但是在實際操作中,考慮到頁面的復雜程度,蜘蛛會采取深度抓取和廣度抓取兩種方式來進行頁面抓取的工作。為了避免重復爬行和抓取,搜索引擎會建立包括已發現但未被抓取以及已被抓取的兩個網頁地址庫進行參考對比,而被抓取的頁面會進入原始的頁面數據庫。到此為止,原始數據庫的建立就告一段落了。
蜘蛛抓取到網頁后,建立原始數據庫,搜索引擎會對網頁進行文字提取的處理,當然,除了頁面上顯示的文字外,搜索引擎還會對諸如meta標簽、flash替代文件,錨文本、alt標簽等部分的文字進行提取。提取文字完畢,便會進入下一個階段:分詞。
不管百度算法怎么樣,但是不可否認的是,百度的中文分詞技術在搜索引擎中的霸主地位無人可以撼動。對于頁面上抓取到的文字,搜素引擎會進行分詞處理,比如將“順的推網站優化”分為“順的推”、“網站優化”兩個部分。而分詞的方法,一般會有詞典與統計兩種手段。詞典不需要太多解釋;至于統計,是指通過分析大量文本從而計算字與字之間相鄰出現的概率,概率越大,越容易形成一個詞。百度目前是將兩種方法結合使用,來達到佳的效果。
說到這里,大家會問,針對一些中文中常出現的詞,比如“的”、“了”、“呀”之類沒有實際意義但是使用頻率又很高的詞,會怎么樣處理呢?答案是剔除,從而提高搜索引擎的計算效率。
在瀏覽網頁的信息時,我們會發現,有一些板塊,在網站是重復出現的,比如“導航”、“廣告”等,這部分東西,對于所屬頁面的顯示內容來說,并沒有實際的意義。搜索引擎也會將此部分內容進行處理,從而篩選出所收錄頁面闡述表達內容的終文字部分。當然,文字部分篩選出來之后,搜索引擎還會對各個網頁上所顯示的終文字內容進行對比,從而刪除掉重復的內容進行顯示。
經過上述的幾個步驟,就可以建立索引庫了,此時的索引會分為正向索引和倒排索引兩個階段。正向索引,可以簡單的理解為將收錄頁面的網址為主鍵,以該頁面上進行分詞處理之后的結果為內容建立起的數據庫,如下圖所示。
通過了解搜索引擎基本工作原理掌握SEO優化技巧
正向索引結束,我們可以發現還不能用于排名,這時就需要倒排索引,即以關鍵詞為主鍵,以包含該關鍵詞的網址及對應內容為內容建立索引數據庫,如下圖所示。
當用戶以關鍵詞查找信息時,搜索引擎會在數據庫中進行搜尋,如果找到與用戶要求內容相符的網站,便采用特殊的算法——通常根據網頁中關鍵詞的匹配程度,出現的位置、頻次,鏈接質量等——計算出各網頁的相關度及排名等級,然后根據關聯度高低,按順序將這些網頁鏈接返回給用戶。
除非注明,否則均為SEO優化顧問服務_零基礎SEO優化指導全網營銷【順的推SEO】真實故事改編,轉載必須以鏈接形式標明本文鏈接。