本人之前發表過一篇文章,闡述 WordPress 收錄頁面過少的原因。我將 WordPress 由部落格主題換成 CMS 主題後,發現文章收錄數量明顯增加,並由此得出一個結論:百度不愛搜錄具有部落格特徵的網頁。由於當時考慮不周到,發表之後,受到個別網友批評指正。事實上,部落格特徵的網頁容易產生重複內容,高度重複才是引起百度不收錄 WordPress 的真正原因。經過深思熟慮,以及對蜘蛛訪問日誌的觀察和分析,我對百度收錄 WordPress 部落格異常的原因得出新的結論。
1. 安裝 SEO 外掛後,百度不收錄頁面。
很多采用 WordPress 建站的朋友都接觸過 All in One SEO 這個外掛。這個外掛可以讓新手一鍵搞定 WordPress 的站內最佳化。事實證明,這款外掛對 google 最佳化非常的完美,但百度卻總容易出現不收錄的情況。我曾經一度懷疑百度會認為 All in One SEO 外掛存在最佳化過度的問題,從而導致網站降權,不收錄。實際上,All in One SEO 的網頁並沒有被百度降權,導致百度不收錄的罪魁禍首是它的 noindex 設定。
noindex 標籤的作用是向搜尋引擎申明該網頁禁止被搜錄和索引,谷歌蜘蛛爬行到這樣標籤的頁面,會自動丟棄掉該頁並繼續爬行其他頁面,從而減小文章重複度,利於站內目標文章頁權重的集中。百度蜘蛛遇到 noindex 標籤的頁面後,同樣會丟棄掉該頁。與谷歌不同的是,百度蜘蛛一般不再爬行該頁面包含的文章連結,直接返回上一級目錄。由於包含在該頁中的文章無法被百度蜘蛛爬行到,所以頁目錄之下的文章將不會被索引。
解決辦法:
取消 All in One SEO 中 noindex 設定。
2.WordPress 模板導致的原因。
WordPress 之所以流行,與其強大的外掛擴充套件能力和數量豐富的主題模板密不可分。我曾經說過,使用 WordPress 建站的人,百分之 99% 都直接採用現成的主題來建站。同樣的模板必然導致網路中出現大量高度重複網站結構和內容。百度不喜歡重複的內容,這些重複內容當然也包含網站模板的 HTML 程式碼。
SEOer 通常會選擇一些使用人數較少的模板來做 SEO 部落格,同時還會對程式碼部分做一些更改,如 ID 部分名稱,title 描述,CSS 名稱等等。這些操作的目的,是使得網頁模板程式碼儘量避免與其他網站重複,從而更有利於文章的搜錄。當部落格正文內容字數越少時,模板重複對收錄的影響就會變得越大。
解決辦法:
1). 增加文章字數。
2). 選擇非熱門 WordPress 主題。
3). 對現有主題進行修改。
3.WordPress 摘要設定不當造成站內文章重複。
百度也好,谷歌也罷,沒有哪一家搜尋引擎喜歡重複的文章。當一篇文章出現在同一網站內多個不同的頁面中,搜尋引擎將花費更多的處理時間來判斷哪一篇文章才是正文。當搜尋引擎從程式上難以無法判斷主次時,會降權收錄文章第一次被索引的頁面,或者直接 K 掉這些重複的頁面。於是很多 WordPress 站長在百度裡 site 自己的網址,然後驚訝的發現:出現在結果前面的,竟然全都是日曆頁,歸檔頁或分類目錄,而文章正文內容卻被百度隱藏而作為補充內容而存在,甚至壓根就不被索引。
導致這樣的原因是因為你在錄入文章資料的時候,既沒有采用 more 標籤對文章進行截斷,也沒有手動新增摘要。 WordPress 預設情況下,會將 more 標籤之前的內容作為摘要輸出到首頁,標籤目錄,分類目錄,歸檔目錄,日曆目錄下。如果沒有用 more 標籤進行截斷,也沒有手動輸入摘要,那麼文章正文會同時出現在首頁,幾個目錄頁,以及文章頁中。由於首頁比目錄頁權重高,目錄頁比文章頁權重高,百度以為文章頁權重最低,便優先捨棄掉了。 google 的真正從技術上實現了文章的篩選機制,能保文章頁被正常的收錄,而百度這方面的技術尚需進一步完善。
解決辦法:
1). 每個文章前一兩段後新增 more 標籤。
2). 手動新增文章摘要,不能與 more 標籤之前相同。
3). 精簡標籤數量。
4.URL 設定不合理,不利於收錄。
在很多 SEO 教程裡,都提出過目錄不宜過深。受到這一思想影響,許多站長就將目錄頁,文章頁都控制在二級目錄以內,以為這樣可以讓網頁更好的被收錄。殊不知,這樣的 URL 方式其實並不利於 SEO 。搜尋引擎蜘蛛爬行演演算法不光包含 URL 深度,同時還包括 URL 的重複度。當蜘蛛需要爬行一個網站時,首先需要根據網站的權重算出索引的深度和重複數,當網站權重越高時,蜘蛛爬行的深度就越深,允許的重複數就越大。蜘蛛在索引某一網站的時候,當深度操過一定層次後就會終止爬行其子目錄。在爬行某個層次連結的過程中,URL 重複數度超過一定數量,就會結束對該層目錄的爬行。
如果你的站內除了根目錄就是 2 級頁面,文章數量少時還好,如果文章數量一多,便會加大搜尋引擎引擎伺服器的負荷,從而引起蜘蛛反感。
解決辦法:
一般而言,搜尋引擎對於新站爬行層次都在三層左右。最佳的目錄設定方案應當是目錄/時段/正文。雖然這樣的分類方式在建站初期收錄處在劣勢,但對網站 (尤其是對靠長尾關鍵詞取勝的站點) 的長期發展百利而無一害。我個人認為,這種目錄結構是對搜尋引擎最友好的,最容易被收錄的結構。