robots.txt 是網站根目錄下邊的一個文本文件,文件名大小寫敏感,必須小寫。 robots.txt 告訴來爬取網站內容的搜索引擎蜘蛛哪些網站內容不需要抓取,哪些可以抓取。搜索引擎蜘蛛來抓取網站頁面時首先讀取 robots.txt 確定網站頁面的抓取範圍。如果不存在 robots.txt,會在服務器上產生一個 404 錯誤日誌,加重服務器的負擔,因此 robots.txt 的存在很有必要,如果你的網站 robots.txt 寫的合理,可以優化搜索引擎蜘蛛的抓取效率,讓搜索引擎更加偏愛你的網站,從而達到優化 WordPress 站點的目的。
WordPress 自動生成一個 robots.txt,即使你的 WordPress 網站根目錄沒有 robots.txt 文件,你在瀏覽器中輸入 http://你的域名/robots.txt,會顯示:
User-agent: *
Disallow: /wp-admin/
Disallow: /wp-includes/
以上語句是告訴搜索引擎蜘蛛不要抓取 WordPress 後台文件。
比較完整的 WordPress robots.txt 文件應該是這樣的:
User-agent: *
Disallow: /wp-admin/
Disallow: /wp-content/
Disallow: /wp-includes/
Disallow: /*/comment-page-*
Disallow: /*?replytocom=*
Disallow: /category/*/page/
Disallow: /tag/*/page/
Disallow: /*/trackback
Disallow: /feed
Disallow: /*/feed
Disallow: /comments/feed
Disallow: /?s=*
Disallow: /*/?s=*
Disallow: /attachment/
使用方法:新建一個名稱為 robots.txt 文本文件,將上面的內容拷貝進去,然後上傳到 WordPress 網站根目錄即可。
下面分別解釋一下各項的作用:
1 、 Disallow: /wp-admin/、 Disallow: /wp-content/和 Disallow: /wp-includes/
用於告訴搜索引擎不要抓取後台程序文件頁面。
2 、 Disallow: /*/comment-page-*和 Disallow: /*?replytocom=*
禁止搜索引擎抓取評論分頁等相關鏈接。
3 、 Disallow: /category/*/page/和 Disallow: /tag/*/page/
禁止搜索引擎抓取收錄分類和標籤的分頁。
4 、 Disallow: /*/trackback
禁止搜索引擎抓取收錄 trackback 等垃圾信息
5 、 Disallow: /feed 、 Disallow: /*/feed 和 Disallow: /comments/feed
禁止搜索引擎抓取收錄 feed 鏈接,feed 只用於訂閲本站,與搜索引擎無關。
6 、 Disallow: /?s=*和 Disallow: /*/?s=*
禁止搜索引擎抓取站內搜索結果
7 、 Disallow: /attachment/
禁止搜索引擎抓取附件頁面,比如毫無意義的圖片附件頁面。
使用 robots.txt 需要注意的幾點地方:
1 、指令區分大小寫,忽略未知指令
2 、每一行代表一個指令,空白和隔行會被忽略;
3 、 「#」 號後的字符參數會被忽略;
4 、有獨立 User-agent 的規則,會排除在通配 「*」User agent 的規則之外;
5 、可以寫入 sitemap 文件的鏈接,方便搜索引擎蜘蛛爬行整站內容。
6 、儘量少用 Allow 指令,因為不同的搜索引擎對不同位置的 Allow 指令會有不同看待。