一個合格的SEO工程師一定會理解搜索引擎的工作原理。百度和谷歌的原理基本相同,但有些細節不同,比如分詞技術。因為國內搜索一般都是百度,所以我們未來的課程都會針對百度,當然,基礎課只適用于谷歌!
搜索引擎的工作原理其實很簡單。首先,搜索引擎大致分為四個部分。_部分是蜘蛛爬蟲,第二部分是數據分析系統,第三部分是索引系統,第四部分是查詢系統。當然,這只是基本的四個部分!
讓我們來談談搜索引擎的工作流程
搜索引擎蜘蛛程序,其實是一個自動應用的搜索引擎,它的作用是什么?其實很簡單,就是在網上瀏覽信息,然后把這些信息抓到搜索引擎服務器上,然后建立索引數據庫。我們可以把搜索引擎蜘蛛作為用戶,然后這個用戶會訪問我們的網站,然后把我們網站的內容保存到自己的電腦上!這很容易理解。
查找鏈接→下載此網頁→添加到臨時庫→提取網頁中的鏈接→下載網頁→循環
首先,搜索引擎的蜘蛛需要找到鏈接,至于如何找到它很簡單,就是通過鏈接鏈接。當搜索引擎蜘蛛找到鏈接時,它將下載頁面并將其存儲在臨時庫中。當然,它會提取這個頁面上的所有鏈接,然后循環。
搜索引擎蜘蛛幾乎24小時沒有休息(這里為它感到悲劇性,沒有假期。哈哈)那么蜘蛛下載回來的網頁呢?這需要轉到第二個系統,即搜索引擎分析系統。
這個問題問得好,那么搜索引擎蜘蛛爬行網頁到底有沒有規則?答案是肯定的!
如果蜘蛛隨機地去抓取網頁,那就很難了,網頁在網上,每天都有這么多,蜘蛛怎么能搶過來呢?所以,蜘蛛爬網頁也有規則!
策略1:深度優先
什么是深度優先?簡而言之,搜索引擎蜘蛛在一個頁面上找到一個連接,然后沿著鏈接向下爬行,然后在下一個頁面上找到另一個連接,然后向下爬行并獲取所有連接。這是深度優先的爬行策略。看下面的圖片
上圖為深度優先示意圖。如果a網頁在搜索引擎中擁有***的權限,如果D網頁的權限_,如果搜索引擎蜘蛛按照深度優先的策略抓取網頁,那么它就會反轉,即D網頁的權限變為,這就是深度優先!
策略2:寬度優先
寬度優先更容易理解,也就是說,搜索引擎蜘蛛先抓取整個頁面上的所有鏈接一次,然后再抓取下一頁的所有鏈接。
上圖是寬度優先的示意圖!這實際上就是我們通常所說的扁平結構。你可能會在一個神秘的角落里看到一篇文章,警告你網頁的層次不要太高,如果太多會導致收藏困難。這是用寬度優先策略來對付搜索引擎蜘蛛,這其實也是原因所在。
策略三:權重優先
如果我們說寬度優先比深度優先,那不是***的。我們只能說,每一個都有自己的優勢。現在搜索引擎蜘蛛一般會同時使用兩種爬行策略,即深度優先+寬度優先。在使用這兩種策略進行抓取時,我們應該參考這種聯系的權重。如果這個連接的權重好,那么我們應該先采用深度,如果這個連接的權重很低,那么就先使用寬度!
那么搜索引擎蜘蛛如何知道這個連接的權重呢?
有兩個因素:1。或多或少的層次;2。該連接的外鏈的數量和質量;
所以,如果層次結構中有太多的鏈接,它們會不會被抓取?這并不是***的,在這里我們要考慮很多因素,我們在***階段會淪為邏輯策略,然后我會詳細告訴你!
蜘蛛爬行網頁策略4:重新訪問和爬行
我認為這更容易理解。比如昨天的搜索引擎蜘蛛抓取了我們的網頁,今天我們給這個頁面增加了新的內容,那么搜索引擎蜘蛛今天會抓到新的內容,這就是重新訪問和爬行!再訪還有兩種抓取方法,如下所示:
所謂全回訪是指蜘蛛一次爬網鏈接,然后在本月的某一天,全部回訪并抓取一次!一次訪問通常是針對更新速度更快、更穩定的頁面。如果我們有一個頁面,它不會每月更新一次。