通过给网站设置适当的 robots.txt 对 Google 和百度 seo 优化的作用是很明显的。 WordPress 博客网站也一样。

我们先看看 robots.txt 是什么,有什么作用?

robots.txt 是什么?

我们都知道 txt 后缀的文件是纯文本文档,robots 是机器人的意思,所以顾名思义,robots.txt 文件也就是给搜索引擎蜘蛛这个机器人看 的纯文本文件。 robots.txt 是搜索引擎公认遵循的一个规范文 档,它告诉 Google 、百度等搜索引擎哪些网页允许抓取、索引并在搜索结果中显示,哪些网页是被禁止收录的。 搜索引擎蜘蛛 spider(Googlebot/Baiduspider)来访问你的网站页面的时候,首先会查看你的网站根目录下是否有 robots.txt 文件,如 果有则按照里面设置的规则权限对你网站页面进行抓取和索引。如淘宝网就通过设置 robots.txt 屏蔽百度搜索引擎:

User-agent: Baiduspider
Disallow: /
User-agent: baiduspider
Disallow: /

robots.txt 的作用

我们了解了什么是 robots.txt,那它有什么作用,总体来说,robots.txt 文件至少有下面两方面的作用:

1 、通过设置屏蔽搜索引擎访问不必要被收录的网站页面,可以大大减少因 spider 抓取页面所占用的网站带宽,小网站不明显,大型网站就很明显了。

2 、设置 robots.txt 可以指定 google 或百度不去索引哪些网址,比如我们通过 url 重写将动态网址静态化为永久固定链接之后,就可以通过 robots.txt 设置权限,阻止 Google 或百度等搜索引擎索引那些动态网址,从而大大减少了网站重复页面,对 SEO 优化起到了很明显的作用。

robots.txt 的写法

关于如何写 robots.txt 文件,在下面我们会以 WordPress 博客来作更具体举例说明。这里先提示几点 robots.txt 写法中应该注意的地方。如 robots.txt 文件里写入以下代码:

User-agent: *
Disallow:
Allow: /

robots.txt 必须上传到你的网站根名录下,在子目录下无效;

robots.txt,Disallow 等必须注意大小写,不能变化;

User-agent,Disallow 等后面的冒号必须是英文状态下的,冒号后面可以空一格,也可以不空格。网上有人说冒号后面必须有空格,其实没有也是可以的,请看谷歌中文网站管理员博客的设置就是这样:http://www.googlechinawebmaster.com/robots.txt ;

User-agent 表示搜索引擎 spider:星号 “*” 代表所有 spider,Google 的 spider 是 “Googlebot”,百度是 “Baiduspider”;

Disallow: 表示不允许搜索引擎访问和索引的目录;

Allow: 指明允许 spider 访问和索引的目录,Allow: / 表示允许所有,和 Disallow: 等效。

robots.txt 文件写法举例说明

禁止 Google/百度等所有搜索引擎访问整个网站

User-agent: *
Disallow: /

允许所有的搜索引擎 spider 访问整个网站 (Disallow: 可以用 Allow: /替代)

User-agent: *
Disallow:

禁止 Baiduspider 访问您的网站,Google 等其他搜索引擎不阻止

User-agent: Baiduspider
Disallow: /

只允许 Google spider: Googlebot 访问您的网站,禁止百度等其他搜索引擎

User-agent: Googlebot
Disallow:
User-agent: *
Disallow: /

禁止搜索引擎蜘蛛 spider 访问指定目录
(spider 不访问这几个目录。每个目录要分开声明,不能合在一起)

User-agent: *
Disallow: /cgi-bin/
Disallow: /admin/
Disallow: /~jjjj/

禁止搜索引擎 spider 访问指定目录,但允许访问该指定目录的某个子目录

User-agent: *
Allow: /admin/far
Disallow: /admin/

使用通配符星号”*” 设置禁止访问的 url
(禁止所有搜索引擎抓取/cgi-bin/目录下的所有以”.html” 格式的网页 (包含子目录))

User-agent: *
Disallow: /cgi-bin/*.html

使用美元符号”$” 设置禁止访问某一后缀的文件
(只允许访问以”.html” 格式的网页文件。)

User-agent: *
Allow: .html$
Disallow: /

阻止 google 、百度等所有搜索引擎访问网站中所有带有? 的动态网址页面

User-agent: *
Disallow: /*?*

阻止 Google spider:Googlebot 访问网站上某种格式的图片
(禁止访问.jpg 格式的图片)

User-agent: Googlebot
Disallow: .jpg$

只允许 Google spider:Googlebot 抓取网页和.gif 格式图片
(Googlebot 只能抓取 gif 格式的图片和网页,其他格式的图片被禁止;
其他搜索引擎未设置)

User-agent: Googlebot
Allow: .gif$
Disallow: .jpg$
…….

只禁止 Google spider:Googlebot 抓取.jpg 格式图片
(其他搜索引擎和其他格式图片没有禁止)

User-agent: Googlebot
Disallow: .jpg$

Google 和百度对 robots.txt 文件的介绍: Google robotstxt,百度 robots.txt 。