爬行網頁只是一個圖像隱喻抓取網頁后,蜘蛛將提取文本中的URL、當前網頁的權重值和其他信息
蜘蛛陷阱不是把蜘蛛留在車站,而是為了失控,蜘蛛會在蜘蛛被困的網頁集中收集無數無意義的url,并將它們放入爬行隊列如果網頁中的URL是無限的,則蜘蛛需要無限的爬網。
在Internet上,所捕獲的URL和網頁的內容將發生變化,搜索引擎將確保某些網頁的更新但是,當網頁內容變化不大時,只有包含的URL不會有太大的差異spider還將根據用戶體驗、歷史更新頻率、頁面類型和頁面頻率等幾個方面來確定對包含的頁面重新爬網的頻率。
用戶體驗:用戶要求搜索引擎漲價后,相關搜索結果量很大對于用戶來說,準確的搜索結果并不多大多數用戶會在前三頁找到他們需要的信息理論上,搜索和瀏覽網頁的次數越多,再次抓取的頻率就越高。
如果包含的網頁沒有變化,搜索引擎再次搜索的頻率就會降低,甚至不再被抓取Spider的***是更新web頁面上的主題內容。
如果網頁類型不同,蜘蛛的更新頻率也會不同主頁和目錄頁是蜘蛛經常訪問的頁面。
網頁的權重越大,蜘蛛的抓取頻率就越高比如:好123的主頁和普通網站的主頁,雖然好123的主頁長期保持不變而普通企業網站偶爾更新,但好123的主頁百度快照是***的,而普通企業網站的主頁百度快照可能是一個月前或更長時間這是網頁權重對蜘蛛捕捉頻率的具體影響然而,大多數蜘蛛也會根據不同的算法和影響因素抓取網頁為了提高網站的抓取頻率,我們一般會***增加高權重的網站鏈接,增加網頁更新頻率,并利用標題和描述吸引點擊來提高排名優秀的網站結構也有利于蜘蛛捕捉當蜘蛛突然發現包含的網頁被刪除時,服務器返回404狀態碼,這也會在短時間內增加抓取網站的頻率一些門戶網站習慣于在發送即時新聞標題然后添加內容的行為中增加點擊次數。
百度阿拉丁計劃:在黑暗的網絡中挖掘更多有價值的信息,讓更多的人受益這是具有獨到資源的網站的免費流量來源不過,阿拉丁的商業內容是付費的網站管理員還可以制作他希望百度收錄的網頁的HTML或XML地圖它還可以交叉呈現網站想要包含的信息例如:屬性查詢分類。
分布式蜘蛛系統分配了區域抓取的范圍在其自身抓取范圍內的url被捕獲在隊列中并等待被包含否則,它們將提交給上級服務器并分發給負責該區域的spider因此,大多數中小企業在分析網站日志時,都會發現百度蜘蛛的IP地址往往相同,但不同網站的IP段不同。: