抓取診斷工具,可以讓站長從百度蜘蛛的角度查看內容,自我診斷百度蜘蛛看到的內容,是否與預期相符。每個站點一周可以使用70次,只顯示百度蜘蛛可見的前200KB內容。
目前,抓斗診斷工具具有以下功能:
一、比如很多產品詳情頁面,價格信息都是通過JavaScript輸出的,這對百度蜘蛛不友好,價格信息也很難在搜索中應用。故障排除后,可以使用診斷工具再次獲取測試。
二、診斷網頁是否被黑鏈和隱藏。如果網站是黑色的,可能會添加隱藏的鏈接。這些鏈可能只有在百度抓到它們時才會出現,這需要用這個抓取工具來診斷。
三、檢查網站與百度的連接是否順暢。如果IP信息不一致,可以通過錯誤通知百度更新IP。
百度支持的URL長度不超過1024。如果你的鏈接長度太長,請在正常訪問的情況下對其進行適當的簡化,以確保該鏈接能夠被百度正常抓取和收錄。
重定向是指百度蜘蛛訪問鏈接時的跳轉。如果跳轉后的鏈路太長或連續跳轉次數超過5次,則會發生重定向錯誤,導致捕獲失敗。
這種情況意味著百度無法訪問你的網站,因為服務器響應太慢或你的網站阻止百度蜘蛛。因此,百度將無法正常包含或更新您網站的內容。您可能會看到以下特定錯誤:連接超時、連接失敗、連接被拒絕、無響應、響應被截斷、連接重置、頭被截斷、超時。
確保站點的托管服務器沒有關閉、過載或配置錯誤。如果連接、超時或響應問題仍然存在,請與站點宿主服務提供商聯系,并考慮增強站點處理流量的能力。
檢查網站是否意外屏蔽百度蜘蛛的IP地址。您可能會因為系統級別的問題而阻止百度訪問,例如DNS配置問題、防火墻或DOS保護系統配置不正確、內容管理系統配置問題。防御系統是保證托管服務正常運行的關鍵因素之一,這些系統通常被配置為自動阻止過多的服務器請求。由于百度蜘蛛通常發送比普通用戶更多的請求,這些防御系統可能會被觸發,這將阻止百度蜘蛛訪問和抓取您的網站。要解決這個問題,您需要確定站點基礎設施的哪個部分正在阻止Baidu spider,然后解除阻止。如果您沒有控制防火墻的權限,則需要與宿主服務提供商聯系以解決此問題。
在抓取診斷工具中,如果抓取失敗返回的結果是機器人被屏蔽,請確認您是否在網站上設置了機器人,以防止百度蜘蛛抓取網站的某些內容。如果你不使用機器人文件屏蔽百度,請點擊百度旁邊的錯誤報告鏈接,百度會立即更新你網站的機器人信息。如果您的錯誤操作導致阻塞,請及時修改robots文件,以避免您的網站在百度的流量和流量下降。
DNS錯誤是指百度蜘蛛無法與DNS服務器通信,因為服務器停止運行或DNS路由到您的域出現問題。
確保百度能搶占你的網站。對于重要的網頁(如主頁),請使用grab診斷工具。如果能順利返回你的主頁內容,那么你可以認為百度可以正常訪問你的網站。
有關持續或重復出現的DNS錯誤,請與您的DNS提供商聯系。通常,您的DNS提供商是站點托管服務提供商。