
筆者在百度站長平臺檢測自己的部落格時,出於最佳化的慣性,對部落格的 Rbots 進行了檢測,進而在百度搜尋了 WordPress 部落格 robots 的寫法設定問題,看了很多 WordPress 高手對 robots 最佳化設定後,終於有所領悟,在此也分享給一些 WordPress 新手看看如何去善用 robots.txt 對 WordPress 部落格進行最佳化。
一、先來普及下 robots.txt 的概念:
robots.txt(統一小寫) 是一種存放於網站根目錄下的 ASCII 編碼的文字檔案,它通常告訴網路搜尋引擎的漫遊器 (又稱網路蜘蛛),此網站中的哪些內容是不能被搜尋引擎的漫遊器獲取的,哪些是可以被 (漫遊器) 獲取的。這個檔案用於指定 spider 在您網站上的抓取範圍,一定程度上保護站點的安全和隱私。同時也是網站最佳化利器,例如遮蔽捉取站點的重複內容頁面。
robots.txt 目前並不是一種標準,只是一種協議! 所以現在很多搜尋引擎對 robots.txt 裡的指令引數都有不同的看待。
二、使用 robots.txt 需要注意的幾點地方:
1 、指令區分大小寫,忽略未知指令,下圖是本部落格的 robots.txt 檔案在 Google 管理員工具裡的測試結果;
2 、每一行代表一個指令,空白和隔行會被忽略;
3 、 「#」 號後的字元引數會被忽略;
4 、有獨立 User-agent 的規則,會排除在通配 「*」User agent 的規則之外;
5 、可以寫入 sitemap 檔案的連結,方便搜尋引擎蜘蛛爬行整站內容。
6 、儘量少用 Allow 指令,因為不同的搜尋引擎對不同位置的 Allow 指令會有不同看待。
三、 WordPress 的 robots.txt 最佳化設定
1 、 User-agent: *
一般部落格的 robots.txt 指令設定都是面對所有 spider 程式,用萬用字元 「*」 即可。如果有獨立 User-agent 的指令規則,儘量放在通配 「*」User agent 規則的上方。
2 、 Disallow: /wp-admin/
Disallow: /wp-content/
Disallow: /wp-includes/
遮蔽 spider 捉取程式檔案,同時也節約了搜尋引擎蜘蛛資源。
3 、 Disallow: /*/trackback
每個預設的文章頁面程式碼裡,都有一段 trackback 的連結,如果不遮蔽讓蜘蛛去捉取,網站會出現重複頁面內容問題。
4 、 Disallow: /feed
Disallow: /*/feed
Disallow: /comments/feed
頭部程式碼裡的 feed 連結主要是提示瀏覽器使用者可以訂閱本站,而一般的站點都有 RSS 輸出和網站地圖,故遮蔽搜尋引擎捉取這些連結,節約蜘蛛資源。
5 、 Disallow: /?s=*
Disallow: /*/?s=*
這個就不用解釋了,遮蔽捉取站內搜尋結果。站內沒出現這些連結不代表站外沒有,如果收錄了會造成和 TAG 等頁面的內容相近。
6 、 Disallow: /?r=*
遮蔽留言連結外掛留下的變形留言連結。 (沒安裝相關外掛當然不用這條指令)
7 、 Disallow: /*.jpg$
Disallow: /*.jpeg$
Disallow: /*.gif$
Disallow: /*.png$
Disallow: /*.bmp$
遮蔽捉取任何圖片檔案,在這裡主要是想節約點寬頻,不同的網站管理員可以按照喜好和需要設定這幾條指令。
8 、 Disallow: /?p=*
遮蔽捉取短連結。預設頭部裡的短連結,百度等搜尋引擎蜘蛛會試圖捉取,雖然最終短連結會 301 重定向到固定連結,但這樣依然造成蜘蛛資源的浪費。
9 、 Disallow: /*/comment-page-*
Disallow: /*?replytocom*
遮蔽捉取留言資訊連結。一般不會收錄到這樣的連結,但為了節約蜘蛛資源,也遮蔽之。
10 、 Disallow: /a/date/
Disallow: /a/author/
Disallow: /a/category/
Disallow: /?p=*&preview=true
Disallow: /?page_id=*&preview=true
Disallow: /wp-login.php
遮蔽其他的一些形形色色的連結,避免造成重複內容和隱私問題。
10 、 Sitemap:http://***.com/sitemap.txt
網站地圖地址指令,主流是 txt 和 xml 格式。告訴搜尋引擎網站地圖地址,方便搜尋引擎捉取全站內容,當然你可以設定多個地圖地址。要注意的就是 Sitemap 的 S 要用大寫,地圖地址也要用絕對地址。
上面的這些 Disallow 指令都不是強制要求的,可以按需寫入。也建議站點開通谷歌管理員工具,檢查站點的 robots.txt 是否規範。
好了,以上就是對利用 robots.txt 對 WordPress 部落格進行最佳化的詳細內容,希望可以幫助和我一樣剛接觸 WordPress 部落格的同學。