最好看的2019中文大全在线观看,最好看免费观看高清电影大全,2025最好看纤纤电影网,最好免费观看高清在线,最好看免费中文,最好看的中文字幕MV电影

[搜索引擎蜘蛛爬行JS和CSS怎么辦]

文章來源:優幫云SEO 2020-03-31

這是一個存在多年的問題,經常出現,但從來沒有一個標準的解決方案:搜索引擎爬蟲(特別是百度)抓取JS、CSS、JSON文件,而機器人屏幕仍然抓取。

這引出幾個問題:

1、 crawler如何獲取JS和CSS?2、爬蟲程序能執行JS嗎?3、crawler的JS對SEO有什么影響?

針對以上問題,我想談談自己的看法:

首先,crawler抓取CSS判斷頁面元素的重要性,保證快照顯示的完整性;抓取JS查找新鏈接,判斷是否存在欺騙

其次,JS將被執行,但不確定是否所有JS都將被執行。正如互聯網上許多人所說,“搜索引擎將直接忽略JS和iframe,只捕獲純文本信息”。這在實際情況下是站不住腳的。如果搜索引擎對JS和iframe來說不是鳥,那么那些戴著黑帽子的學生不高興死嗎?請閱讀前兩篇關于黑帽子的文章,你會明白的

第三,我不知道。在某些情況下,它可能會占用抓取配額,但我經歷了幾個蜘蛛抓取JS的站點,流量沒有異常。

說到這里,我現在的工作站上半年就經歷過這種情況。百度瘋狂地抓取JSON,機器人屏蔽了各種低效。但交通并未出現下降等異常情況。我不在乎基本的,根據我的心理承受能力,但對JSON的抓取率的檢查確實讓我的菊花變緊了,接近40%。是的,你沒有錯,40%。假設百度每天抓取100萬個頁面,40萬都是JSON。

然后發現百度在日志中的抓取總量與百度站長工具的抓取頻率不匹配。經過多次檢查,發現日志抓取總量=百度工具抓取頻率+日志JSON抓取總量。也就是說,對于百度給出的抓取頻率數據,不包含抓取JSON的部分,相當于有獎抓取。從這個角度來看,應該不會對SEO產生影響,也不存在占用抓取配額的問題。但是,抓取比例總是很痛苦的,所以我們決定解決這個問題。

故障排除后,發現有些頁面包含一個功能:請求頁面時,判斷訪問用戶是否先登錄;如果用戶登錄,則返回該用戶歷史訪問過的其他產品;如果用戶未登錄,則返回指定內容。返回的內容被轉換成一個JSON文件(沒錯,百度瘋狂抓取的文件),然后傳輸到前端JS。JS解析JSON文件,在前端接口解析JSON后顯示數據。

使用異步加載。從業務邏輯的角度來看,對于這個頁面的任何訪問者來說,如果不執行這個JS,就相當于沒有加載頁面。

JSON path是用JS明文寫的,百度是否已經識別出JSON的路徑,還是執行了JS,還不得而知。不管怎樣,只要我們掌握了包含這個函數的頁面,我們就會獲取相應的JSON文件。

綜上所述,有兩個預先確定的解決方案:一是直接刪除與此函數對應的JS;二是不返回此JS,直接面對搜索引擎訪問。所以蜘蛛看不見,也抓不到。


本文標簽:seo 搜索引擎
欢迎光临: 唐山市| 乌拉特后旗| 攀枝花市| 呈贡县| 辽宁省| 延吉市| 兴隆县| 石屏县| 桓台县| 玛纳斯县| 三台县| 扶余县| 新昌县| 河北区| 邯郸县| 呈贡县| 岗巴县| 沙湾县| 上饶市| 普格县| 尚义县| 买车| 平度市| 潮州市| 错那县| 浙江省| 延边| 海安县| 哈尔滨市| 呼和浩特市| 共和县| 尉氏县| 商城县| 门源| 上思县| 东港市| 华安县| 宁德市| 海宁市| 萍乡市| 名山县|