喜歡SEO優化的朋友可以關注一下小哦,或者有興趣建立一個網站的朋友。稍后,我會逐一告訴大家網站結構和關鍵詞布局,TDK寫作,Dede后臺操作。請耐心地看一看。回到今天的主題,我將向您介紹搜索引擎抓取規則。我相信在你理解了原著之后,你會對TDK的布局和內容寫作有所幫助。
小知識:蜘蛛抓取網站后,下一步就是對網站內容進行處理。中間部分的計算稱為索引,后通過算法排序。
一個抽取文本-B中文分詞-C刪除停止詞-D刪除噪聲-e刪除重復內容-f向前索引-G向后索引-H鏈接關系計算
提取文本:當前搜索基于文本內容。蜘蛛會抓取HTML文件的代碼,并刪除代碼中的標記和程序,只留下文本內容進行排名處理。
中文分詞:這里有一個簡單的介紹。分詞有兩種方法:1。基于字典匹配2。據統計,感興趣的朋友可以進一步了解百度。
刪除停止詞:簡而言之,刪除語氣詞,如:De,De,Mo,ah,ha,ah,詞內。
消除噪音:此步驟只需刪除網站中沒有貢獻的內容,如:版權公告文本、導航欄、廣告等,因為這些內容只會在網站的主題中起分散作用。
刪除重復內容:同一篇文章可能經常出現在不同的網站上,而搜索引擎不喜歡這些內容,所以這個過程稱為重復數據消除。當很多人不了解搜索引擎的規則時,就不可能簡單地添加或減少一些單詞并發布內容。
F正指數:經過文本提取、分詞、消噪和重復數據消除,我們可以得到反映網站內容的單詞——單詞中的內容。然后搜索引擎程序可以提取關鍵詞,根據分詞程序劃分的關鍵詞,將頁面變成一組關鍵詞,并在界面上記錄每個關鍵詞的數量和格式。
G倒排索引:例如,如果我們搜索關鍵字“1”,那么我們需要從索引數據庫中的文件中找到包含關鍵字“2”的文件,然后計算排名,因為這種計算不能滿足排名結果的實時返回,因此我們需要將正索引放入數據庫的數據列表索引中,重構倒排索引,并將文件轉換為關鍵字模式-關鍵字到文件模式。
H-link關系計算:除了引起HTML捕獲的文件外,搜索還可以捕獲和索引各種基于文本的文件,如PDF、word、WPS、xls、TXT等,但就目前的技術而言,它無法捕獲圖像、視頻、flash等飛行文本內容或腳本執行文件。