robots.txt 是網站根目錄下邊的一個文字檔案,檔名大小寫敏感,必須小寫。 robots.txt 告訴來爬取網站內容的搜尋引擎蜘蛛哪些網站內容不需要抓取,哪些可以抓取。搜尋引擎蜘蛛來抓取網站頁面時首先讀取 robots.txt 確定網站頁面的抓取範圍。如果不存在 robots.txt,會在伺服器上產生一個 404 錯誤日誌,加重伺服器的負擔,因此 robots.txt 的存在很有必要,如果你的網站 robots.txt 寫的合理,可以最佳化搜尋引擎蜘蛛的抓取效率,讓搜尋引擎更加偏愛你的網站,從而達到最佳化 WordPress 站點的目的。

WordPress 自動生成一個 robots.txt,即使你的 WordPress 網站根目錄沒有 robots.txt 檔案,你在瀏覽器中輸入 http://你的域名/robots.txt,會顯示:

User-agent: *

Disallow: /wp-admin/

Disallow: /wp-includes/

以上語句是告訴搜尋引擎蜘蛛不要抓取 WordPress 後臺檔案。

比較完整的 WordPress robots.txt 檔案應該是這樣的:

User-agent: *
Disallow: /wp-admin/
Disallow: /wp-content/
Disallow: /wp-includes/
Disallow: /*/comment-page-*
Disallow: /*?replytocom=*
Disallow: /category/*/page/
Disallow: /tag/*/page/
Disallow: /*/trackback
Disallow: /feed
Disallow: /*/feed
Disallow: /comments/feed
Disallow: /?s=*
Disallow: /*/?s=*
Disallow: /attachment/

使用方法:新建一個名稱為 robots.txt 文字檔案,將上面的內容複製進去,然後上傳到 WordPress 網站根目錄即可。

下面分別解釋一下各項的作用:

1 、 Disallow: /wp-admin/、 Disallow: /wp-content/和 Disallow: /wp-includes/

用於告訴搜尋引擎不要抓取後臺程式檔案頁面。

2 、 Disallow: /*/comment-page-*和 Disallow: /*?replytocom=*

禁止搜尋引擎抓取評論分頁等相關連結。

3 、 Disallow: /category/*/page/和 Disallow: /tag/*/page/

禁止搜尋引擎抓取收錄分類和標籤的分頁。

4 、 Disallow: /*/trackback

禁止搜尋引擎抓取收錄 trackback 等垃圾資訊

5 、 Disallow: /feed 、 Disallow: /*/feed 和 Disallow: /comments/feed

禁止搜尋引擎抓取收錄 feed 連結,feed 只用於訂閱本站,與搜尋引擎無關。

6 、 Disallow: /?s=*和 Disallow: /*/?s=*

禁止搜尋引擎抓取站內搜尋結果

7 、 Disallow: /attachment/

禁止搜尋引擎抓取附件頁面,比如毫無意義的圖片附件頁面。

使用 robots.txt 需要注意的幾點地方:

1 、指令區分大小寫,忽略未知指令

2 、每一行代表一個指令,空白和隔行會被忽略;

3 、 「#」 號後的字元引數會被忽略;

4 、有獨立 User-agent 的規則,會排除在通配 「*」User agent 的規則之外;

5 、可以寫入 sitemap 檔案的連結,方便搜尋引擎蜘蛛爬行整站內容。

6 、儘量少用 Allow 指令,因為不同的搜尋引擎對不同位置的 Allow 指令會有不同看待。