網站最佳化:robots.txt 使用教程

首先，我來介紹一下什麼是 robots.txt：robots.txt 是搜尋引擎中訪問網站的時候要查看的第一個檔案。 Robots.txt 檔案告訴蜘蛛程式在伺服器上什麼檔案是可以被檢視的。當一個搜尋蜘蛛訪問一個站點時，它會首先檢查該站點根目錄下是否存在 robots.txt，如果存在，搜尋機器人就會按照該檔案中的內容來確定訪問的範圍；如果該檔案不存在，所有的搜尋蜘蛛將能夠訪問網站上所有沒有被口令保護的頁面。最後，robots.txt 必須放置在一個站點的根目錄下。

大家可以參考一下谷歌、百度和騰訊的 robots 寫法：

http://www.google.com/robots.txt

http://www.baidu.com/robots.txt

http://www.qq.com/robots.txt

大家瞭解完 robots.txt 後，那麼我們可以用 robots.txt 來做什麼？

1 、用 robots.txt 遮蔽相似度高的頁面或沒內容的頁面。

我們知道，搜尋引擎收錄網頁後，會對網頁進行「稽核」，而當兩個網頁的相似度很高時，那麼搜尋引擎就會刪除掉其中一個，並且會降低一點你網站的得分。

假設以下這兩個連結，內容其實差不多，那麼第一個連結就應該遮蔽掉。

/XXX?123

/123.html

像第一個的連結這樣的連結非常多，那麼我們要怎麼遮蔽呢? 其實只要遮蔽/XXX? 就可以遮蔽所有的連結了。

程式碼如下：

Disallow： /XXX?

同理，一些沒有內容的頁面我們也可以利用相同的辦法將其遮蔽掉。

2 、用 robots.txt 遮蔽多餘的連結，一般保留靜態的連結（既 HTML 、 htm 、 shtml 等）。

由於網站中經常會出現多個連結指向同一個頁面的情況，而這樣會讓搜尋引擎對網站的友好度降低。為了避免這一個情況，我們就可以透過 robots.txt 把非主要的連結去掉。

比如以下兩個連結指向同樣的頁面：

/OOO?123

/123.html

那麼我們就應該去掉第一個垃圾，程式碼如下：

Disallow： /OOO?123

3 、用 robots.txt 遮蔽死鏈

死鏈就是曾經存在的網頁，因為改版或其他原因而失去效用後就變成死鏈，也就是說看似一個正常的網頁連結，但點選後不能開啟相對應的網頁頁面。

比如，原來在目錄為/seo 下的所有連結，因為目錄地址的改變，現在都變成死連結了，那麼我們可以用 robots.txt 把他遮蔽掉，程式碼如下：

Disallow： /seo/

4 、告訴搜尋引擎你的 sitemap.xml 地址

利用 robots.txt 可以告訴搜尋引擎你 sitemap.xml 檔案的地址，而不需要在網站上新增 sitemap.xml 的連結。具體程式碼如下：

Sitemap：你的 sitemap 地址

以上就是 robots.txt 的基本用法，一個好的網站必定會有一個好的 robots.txt，因為 robots.txt 是搜尋引擎瞭解你網站的一個途徑。另外在這裡我推薦一下一個比較適合 WordPress 使用者使用的 robots.txt 寫法：

User-agent： *

Disallow： /wp-

Disallow： /feed/

Disallow： /comments/feed

Disallow： /trackback/

Sitemap： http://rainjer.com/sitemap.xml

最後，如果你覺得上面所說的還不能滿足你的需要，那麼你可以在谷歌或百度官方提供的 robots.txt 使用指南學習：

百度：http://www.baidu.com/search/robots.html

谷歌：http://www.google.com/support/forum/p/webmasters/thread?tid=4dbbe5f3cd2f6a13&hl=zh-CN

網站最佳化:robots.txt 使用教程

網站最佳化:robots.txt 使用教程

訂單服務

媒體中心

服務支援

使用條款

關於公司