如何優化搜索引擎,頁面分析原理一定要知道!
本文章由SEO優化指導用戶上傳提供
當用戶在使用搜索引擎進行查詢的時候,使用的是一個詞或者短語,而到目前為止,搜索引擎僅能提供整個原始頁面,不能返回與用戶查詢條件相匹配的信息。因此,搜索引擎還需要對原始頁面進行一系列的分析和處理,以迎合用戶信息查詢的習慣。
如何優化搜索引擎,頁面分析原理一定要知道
搜索引擎抓取首先對存儲的原始頁面建立索引,再過濾原始網頁的標簽信息,從中提取網頁中的正文信息;然后,對正文信息進行切詞,并建立關鍵字索引,得到頁面與關鍵字間的對應關系;對所有關鍵字進行重組,從而建立關鍵字與頁面之間的對應關系。具體可查看SEO(快速掌握百度搜索引擎抓取原理)相關信息。
網頁索引
為了提高頁面檢索的效率,搜索引擎需要對抓取回來的原始頁面建立索引,由于URL地址就是頁面的入口,為原始頁面建立索引實際上就是為頁面的URL建立索引,這樣就可以實現根據URL快速定位到對應的頁面。
網頁分析
網頁分析是整個網頁處理過程中重要的環節,包括網頁正文信息的提取(即標簽信息過濾)、切詞、建立關鍵字索引列表及關鍵字重組這幾個重要的步驟。結果形成了一個關鍵字對應多個原始頁面的關系,即形成了與用戶查詢習慣相符合的信息雛形。
正文信息提取
網頁正文信息的提取實際上就是對網頁中非正文信息的過濾。其中,為重要的就是對網頁中標簽信息的過濾。經過標簽過濾以后,搜索引擎就可以得到網頁的正文信息。
切詞/分詞
經過對原始頁面提取正文信息后,搜索引擎就可以得到頁面的實質內容。而為了得到用戶查詢相關的數據,搜索引擎還需要對頁面中的內容進行切分,從而形成與用戶查詢條件性匹配的以關鍵字為單位的信息列表。
每個搜索引擎的切詞系統都會處在或多或少的差別,切詞系統的優劣主要取決于開發者對語言的理解能力。特別是在中文語言環境里,切詞算法直接影響網頁內容經過切詞處理后會產生什么樣的關鍵字,這些關鍵字是否與用戶的搜索習慣一致。因而,切詞的結果直接決定搜索引擎能否提供與用戶查詢條件相匹配的信息。
在中文環境里,常見的分詞方法包括字符串匹配分詞及統計分詞兩種,下面簡單介紹一下這兩種中文分詞算法。
字符串匹配分詞是基于一個足夠大、足夠權威的“詞典”上進行的。如果頁面上的詞與“詞典”中的詞匹配,則為命中。這樣就可以得到一個詞或者短語。
統計分詞是根據相鄰的兩個(或者多個)字出現的概率判斷這兩個(或者多個)字組合后是否會形成一個詞,例如,“微博”等著一些在傳統中文語言中不存在的詞匯。
關鍵字索引
網頁正文信息在經過切詞系統處理后,形成了關鍵字列表。關鍵字列表中的每條記錄都包括了該關鍵字所在的關鍵字編號、網頁編號、關鍵字出現次數以及關鍵字在文檔中的位置等信息,
為了提高對關鍵字的檢索效率,搜索引擎還會為關鍵字列表建立索引。這樣,經過對網頁及關鍵字列表都建立索引后,就可以實現從一個網頁快速定位到某一個關鍵字。例如,網頁0經過信息過濾后得到的內容是“中國廣東省深圳市”;然后,對內容進行切詞后產生關鍵字“中國”“廣東省”“深圳市”,并對關鍵字建立索引。
這樣根據網頁0,搜索引擎就可以快速定位到關鍵字“中國廣東省深圳市”,然而,用戶是通過那些關鍵字去尋找那些承載相應信息的頁面的,所以,搜索引擎還需要對已有信息進行相應的處理,建立關鍵字與頁面URL間的對應關系表,從而實現根據關鍵字快速定位到多個頁面的功能,這就是關鍵字重組。
關鍵字重組
為了迎合用戶尋找信息的習慣,及關鍵字為條件尋找與關鍵字相關的頁面。因此,搜索引擎需要建立以關鍵字為主索引的一個關鍵字對應多個頁面的關系表,即關鍵字反向索引表。而建立關鍵字反向索引表重要的任務就是對所有頁面中的關鍵字列表進行重組。
之前對關鍵字建立索引后,已經產生了網頁與關鍵字的一對多的對應關系。接下來,搜索引擎把所有頁面中的關鍵字進行重組,并建立關鍵字引擎,從而形成一個特定的關鍵字就可以找到一個或者多個網頁,從而實現根據關鍵字返回相應頁面的功能。
經過對原始頁面進行分析、處理后,搜索引擎已經可以根據用戶的查詢條件返回相應的頁面列表。但是,簡單地向用戶返回這個頁面列表,往往不能滿足用戶的需要,所以,搜索引擎還會根據頁面與用戶查詢條件相關性的高低再對這個列表進行重新排列,然后把處理后的列表返回給用戶。
除非注明,否則均為SEO優化顧問服務_零基礎SEO優化指導全網營銷【順的推SEO】真實故事改編,轉載必須以鏈接形式標明本文鏈接。