一、幾乎很多站點都無法避免死鏈接的存在,但高死鏈接率會影響搜索引擎對網站的評價。
二、搜索引擎僅限于每天抓取每個網站的頻率。如果網站有很多死鏈接,就會浪費抓取配額,影響正常頁面的抓取。
三、過多的死鏈對網站用戶來說也是一個糟糕的表現。
百度站長工具有一個抓取異常,那么這個工具是如何產生異常數據的呢?
編輯錯誤或程序員的粗心大意使頁面產生一個沒有頁面的URL。
由于程序或頁面調整或修訂,無法打開原始正常頁面
由于程序更改,無法打開某些正常頁。
由于服務器、空間或程序問題,無法訪問網站,因此抓取異常中將出現大量500個錯誤頁。
當單個爬蟲程序提取頁面URL時,它們只提取URL的一部分或正常URL之后的文本或字符。
由于網站修改過程中處理不當,導致一些舊頁面無法訪問,或者網站管理員刪除被黑、被廣告、過期、被水淹的頁面。
1、除了檢索錯誤頁之外,許多錯誤頁都是由于程序員的粗心大意或我們程序的問題造成的。它們應該是普通的頁面,因為由于錯誤而無法訪問它們。對于這樣的頁面,請盡快修復。
2、提交死鏈接,但必須有許多錯誤的網頁,不應該存在。那么我們需要找到一種獲取此類頁面的URL的方法,主要有三種方式:
(1) 百度站長工具-抓取異常-頁面未找到-復制數據[修復:這里不需要提交死鏈,百度站長工具自動提交死鏈];
(2) 管理員在刪除頁面時手動或自動保存被刪除頁面的URL;
(3) 使用相關的爬蟲軟件對整個站點進行爬蟲,獲得死鏈,如Xenu。
然后將上面處理的數據粘貼到網站根目錄下的文檔中,并將文檔地址提交到百度站長工具-網頁抓取-死鏈提交-添加新數據-填寫死鏈文件地址。
將規則添加到robots文件后,必須到百度站長的robots工具進行驗證,將指定的錯誤頁面放入,查看阻塞是否成功,然后將正常頁面放入,查看是否被錯誤阻塞。
相關注意事項:
一、在百度站長工具中提交死鏈之前,請確保提交的死鏈數據中沒有活動鏈接,或者有一個HTTP狀態代碼不是404的頁面。一旦有一個活動鏈,它將顯示提交失敗,無法刪除。
二、由于很多網站程序問題,很多無法打開的頁面返回碼都不是404,這是一個很大的問題。例如,無法打開的頁的返回碼是301、200、500。如果他們是200,不同的網址將出現在網站上,以獲得相同的內容。例如,在我的一個網站上,社區帖子被刪除后,返回代碼實際上是500。后來,我發現了,立即處理。我們試圖找出所有錯誤的URL格式,并在打開后將HTTP狀態代碼設置為404。
三、在找到所有錯誤的頁面后,一定要找到這些頁面的URL的相同特性,并將它們與普通頁面的特性區分開來。將相應的規則寫入robots文件,并禁止spider獲取它們。即使你已經在網站管理員工具中提交了死鏈,建議機器人攔截并抓取它們。
四、機器人只能解決蜘蛛不再抓取這樣的頁面的問題,但不能解決刪除已經抓取的頁面快照的問題。如果你的網站是黑色的,并且你刪除了黑色頁面,除了機器人阻止了黑色頁面外,你還應該將這些頁面提交到死鏈。提交死鎖是刪除黑頁快照的快方式。