搜索引擎的工作過程非常復雜,大致可以分為三個階段
一、網頁收集:搜索引擎蜘蛛通過鏈接進行爬行和實時搜索,并將捕獲的網頁存儲在原始數據庫中
二、預處理:搜索引擎蜘蛛捕捉到的頁面不能被用戶直接查詢和排序,因此需要進行預處理
三、檢索服務:用戶輸入查詢項后,排名程序調用索引數據中的數據,按排序順序向用戶顯示與用戶搜索項相關的頁面
搜索引擎通過蜘蛛程序抓取和收集網頁。網頁收集是搜索引擎工作的步。了解由手引起的網頁抓取機制,便于蜘蛛抓取更多的網頁,使網站有更好的排名
蜘蛛:網絡爬蟲,也稱為網絡蜘蛛,網絡機器人,是根據一定規則自動抓取網頁的程序和腳本
蜘蛛的工作原理:對于Internet中的網站,如果沒有鏈接的篩選設置,蜘蛛可以通過鏈接在網站或網站之間爬行。由于網絡中網頁的鏈接結構異常,蜘蛛需要采取一定的爬行策略來爬行更多的網頁
有兩種簡單的爬行策略:深度優先和廣度優先。
深度優先:蜘蛛從起始頁開始,一個接一個地跟蹤和吸收鏈接,從這一行出來后,再到下一個起始頁跟蹤鏈接。
如圖1所示:
在深度優先模式下,爬行器從第f頁爬行到第A1、A2和A3頁。爬網到第A3頁后,沒有其他要爬網的鏈接。它將返回到F頁,并沿著頁面上的另一個鏈接爬行到B1、B2和B3頁。在“深度優先”策略中,蜘蛛爬行,直到它不能再向前移動,然后返回另一條路徑。
廣度優先:這意味著蜘蛛將抓取起始網頁鏈接中的所有鏈接,然后選擇其中一個鏈接頁面,并繼續抓取此頁面中的所有頁面。這是一種常見的方法,因為這種方法可以讓蜘蛛網并行處理,提高其抓取速度。
如圖2所示:
這是一個有限范圍的模型圖。蜘蛛沿著鏈接從f頁爬行到A1、B1和C1頁,直到f頁上的所有鏈接都已爬行,然后從f頁上找到的下一個鏈接A1爬行到A2、A3和A4頁。
深度優先和官渡優先通常是混合使用的。這樣,你不僅可以照顧盡可能多的網站,還可以照顧一些網站的內部頁面。勇士還將考慮頁面權重、網站規模、外鏈、更新等因素。此外,為了提高爬行和抓取的速度,搜索引擎使用多個蜘蛛同時爬行。根據這一原則,為了使網站中的所有頁面按順序爬行,必須合理設置網站中的鏈接(內鏈的結構和布局)。