搜索引擎預處理的是提取文本內容。SEO人員應盡量降低從搜索引擎中提取文本內容的難度,即簡化HTML代碼,從而增加真實文本內容的比例,小化HTML格式代碼。從某種意義上說,格式碼是對關鍵字的噪聲,而簡化碼是為了提高信噪比。
(1)使用CSS定義文本字體、顏色、大小和頁面布局。有很多網站不僅使用CSS,而且在文本的可見部分再次使用樣式或字體來定義字體和大小,這是完全不必要的冗余代碼。
(2)使用外來文件。將CSS和JavaScript放在外部文件中,只需在頁面的HTML中放一行代碼即可調用。如果我們查看一些網站源文件,我們經常可以看到大量的CSS和JavaScript代碼,JavaScript代碼經常出現在HTML的前面,這使得真正有用的文本部分被推到后面。
(3)減少或刪除注釋。代碼中的注釋只是程序員或頁面設計者的提示。它們對用戶和搜索引擎沒有影響。它們只能變成噪音。
(4)減少表,特別是嵌套表。現在,大多數網頁都使用CSS排版,大大減少了表格的使用。但有時使用表表示是必要的,不必完全避免。只要沒有多級嵌套表,就會產生大量無用的代碼。
(5)這里解釋文件大小限制。谷歌的《技術指南》曾建議,HTML文件應限制在100kb以下,頁面上的鏈接數量應少于100個。百度目前建議HTML文件不能超過128KB。
(6)事實上,目前的搜索引擎已經能夠抓取大得多的文件,即使是一兩萬億的文件也沒有問題。
(7)但是,在可能的情況下,您應該盡量使文件盡可能小。雖然搜索引擎可以獲取大文件,但它們可能不會索引整個文件,而只索引文件的***部分。一般來說,頁面內容應該集中統一,索引的上半部分代表文件的內容主題。當文件較大時,不必對整個文件進行索引,這也是對資源的浪費。文件太大,加上大量冗余格式代碼,可能會將實質內容從實際索引部分推出來。