我們應該從哪些要素分析網站數據中的日志?下面優幫云百度搜索引擎關鍵詞優化公司將向您解釋基本信息、目錄捕獲、時段捕獲、IP捕獲和狀態代碼分發。
一、基本情況
從哪里可以得到日志的基本信息?三個基本信息,抓取總量,停留時間(H)和訪問次數,可以從光年日志分析工具計算。然后,通過這三個基本信息,我們可以計算出每次要取的平均頁數和要取的單頁的停留時間。然后利用MSSQL提取蜘蛛的_捕獲量,并根據上述數據計算爬蟲的重復捕獲率。
單頁捕獲停留時間=停留時間*3600/總捕獲
爬蟲重復抓取率=-_抓取量/總抓取量
對于以上數據,我們需要統計一段時間的數據,看看整體趨勢如何,這樣才能發現問題,調整網站的整體策略。以上月某網站的基本日志信息為例。
這個基本表是上個月日志的基本信息。我們需要看到它的整體趨勢調整和在哪里加強。
從這一總體趨勢可以看出,爬行動物總捕獲量總體呈下降趨勢,需要我們做出相應的調整。
總的來說,網站的重復爬行率比較高,這就需要一些細節,更多的爬行訪問和使用一些機器人和不跟隨技術。
爬蟲單頁停留時間長,國平老師曾經寫過,頁面加載速度是如何影響SEO流量的文章,你應該去讀一下。提高網頁的加載速度,減少爬蟲的單頁停留時間,有助于爬蟲的總爬網量,進而增加網站的收錄量,從而提高網站的整體流量。從16號到20號服務器有一些問題。調整后,速度明顯加快,單頁停留時間相應減少。
相應的調整如下:
從本月的分類來看,爬行動物的爬行量下降,重復爬行率上升。綜合分析需要從站內外各環節進行調整。站點中的鏈接應盡可能使用錨文本。如果做不到,可以在其他頁面上推薦超鏈接,這樣蜘蛛就可以盡可能深入地抓住它們。網站外鏈接需要以多種方式發布。目前,平臺太少。如果深圳新聞網、上國網等網站出現輕微錯誤,我們的網站將受到嚴重影響。站外平臺要寬,發布鏈接要多樣化,不能直接發到主頁的欄目和文章頁面要加強。目前,場外平臺太少。近10W外部鏈路集中在幾個平臺上。
第二,目錄捕獲
MSSQL用于提取目錄爬網程序爬網并分析每日目錄爬網。它可以清楚地看到每個目錄的抓取情況。此外,還可以比較以往的優化策略,優化是否合理,關鍵欄優化是否達到預期效果。如圖所示,
綠色:主柱黃色:抓得不好粉色:抓得不好深藍色:禁止柱
可以看出,總體趨勢變化不大,只是兩欄的抓拍變化很大。
根據上述兩個數字,相應的調整如下:
從CAS的輸出圖來看,總體捕獲較少。在主列中,抓取次數較少:XXX,XXX,XXX。總體上,要增加整個網站的進口口岸,配合外鏈,加強站內的內部鏈接建設。對于薄弱柱,應加強處理。同時,深藍色的欄目被寫進機器人中進行屏蔽,網站也被導入這些欄目中進行不跟蹤,避免權重只進不出。
第三,時間段捕捉
通過Excel中的數組函數,提取日常抓取時間段中的爬蟲抓取,重點分析日常抓取,找出對應的抓取密集時間段,并相應更新內容。同時,可以看出抓取異常。
圖中有些粉紅色的表格是不正常的時間點。可以看出,服務器不是特別穩定。而且,如果想了解特殊情況,可以從下圖中一目了然,一天中哪個時間點有問題,同樣是總捕獲量呈下降趨勢。
通過抓取時間,我們做了相應的調整:
通過圖中表格的顏色,可以看出服務器不是特別穩定。我們需要加強服務器的穩定性。此外,在17、18、19天內,該網站不斷遭到人的攻擊和鏈接,但爬行正常,說明這些都對網站造成了一定的影響!
第四,IP段捕獲
通過MSSQL在日志中提取爬蟲的IP地址,并通過Excel進行統計。我們還需要查看整個IP地址。如果IP網段沒有明顯變化,網站的提升權限就沒有大問題。因為當網站升級或降級時,爬網程序的IP段將被替換。
第五,狀態碼統計
在此之前,您需要知道HTTP狀態代碼返回值代表什么。
從圖中可以看出,有許多304狀態碼。如果一個網站被搜索引擎抓取的次數和頻率更多,那么就更有利于排名,但是如果你的網站出現過多的304條,那么就會降低搜索引擎抓取的頻率和頻率,從而使你的網站排名低于別人。調整:服務器可以清除緩存。
還有一張圖片,百度爬蟲數據圖,數據密集,以上所有數據都是從這里調用的。
以上是百度搜索引擎關鍵詞優化公司優幫云關于網站數據日志分析。希望對您有所幫助!