最好看的2019中文大全在线观看,最好看免费观看高清电影大全,2025最好看纤纤电影网,最好免费观看高清在线,最好看免费中文,最好看的中文字幕MV电影

如何抓住蜘蛛

文章來源:優幫云SEO 2020-04-11

對于搜索引擎來說,幾乎不可能捕捉到互聯網上的所有網頁。那么蜘蛛是如何抓住它的呢?今天我們將繼續討論昨天的話題:搜索引擎是如何工作的?過來看看!

從目前公布的數據來看,容量的搜索引擎只捕獲了網頁總數的40%左右。其中一個原因是抓取技術的瓶頸,它不能遍歷所有的網頁,很多網頁無法從其他網頁的鏈接中找到;另一個原因是存儲技術和處理技術的問題。如果每頁的平均大小為20K(包括圖片),則100億個網頁的容量為100-2000g字節。即使可以過度存儲,也存在下載問題(按一臺機器每秒下載20K計算,需要240臺機器連續下載一年才能下載完所有網頁)。

同時,由于數據量過大,搜索效率也會受到影響。因此,很多搜索引擎蜘蛛只會抓取哪些重要的網頁,而在抓取的過程中,評價網頁重要性的主要依據是網頁的鏈接深度。

在抓取網頁時,搜索引擎蜘蛛通常有兩種策略:廣度優先和深度優先。廣度優先意味著搜索引擎蜘蛛將首先抓取起始頁中鏈接的所有頁面,然后選擇其中一個鏈接頁面,并繼續使用此頁中鏈接的所有頁面。這是常用的方法,因為這種方法可以讓搜索引擎并行處理,提高其抓取速度。深度優先意味著搜索引擎蜘蛛將從起始頁開始,逐個跟蹤鏈接,然后在處理完這一行后轉到下一個起始頁繼續跟蹤鏈接。這種方法的一個優點是更容易設計搜索引擎蜘蛛。

由于不可能捕獲所有網頁,一些搜索引擎蜘蛛設置了一些不重要網站的訪問層數,如下圖所示。A是起始頁,屬于第0、B、C、D、e和f層,屬于第1、G和H層,屬于第2、I層。如果搜索引擎spider設置的訪問層數為2,則不會訪問我的網頁。這還允許在搜索引擎中搜索某些網站上的某些網頁,而不能搜索其他網站上的網頁。對于網站設計者來說,扁平化的網站結構設計有助于搜索引擎捕獲更多的頁面。

搜索引擎蜘蛛在訪問網頁時經常遇到加密數據和網頁權限的問題。有些網頁需要成員的權限才能訪問。當然,網站所有者可以讓搜索引擎只注意不通過協議捕獲,但是對于一些銷售報表的網站,他們希望搜索引擎能夠搜索到他們的報表,但是他們不能讓搜索者完全免費查看,所以他們需要為搜索引擎的蜘蛛。搜索引擎蜘蛛可以在給定的權限內爬行這些頁面,以便提供搜索。當搜索者點擊查看網頁時,還需要提供相應的權限驗證。

本文標簽:seo技術教程
欢迎光临: 香河县| 玉田县| 将乐县| 全南县| 虎林市| 安吉县| 防城港市| 界首市| 濮阳县| 潞西市| 普宁市| 壤塘县| 措美县| 汉寿县| 山东省| 六安市| 红河县| 靖边县| 贵溪市| 紫阳县| 苏尼特右旗| 丽江市| 常熟市| 日喀则市| 花莲市| 阿拉尔市| 长海县| 马山县| 南平市| 镇宁| 隆子县| 长寿区| 交城县| 剑河县| 敦化市| 宝坻区| 开阳县| 米脂县| 平山县| 沁水县| 交口县|