本人之前发表过一篇文章,阐述 WordPress 收录页面过少的原因。我将 WordPress 由博客主题换成 CMS 主题后,发现文章收录数量明显增加,并由此得出一个结论:百度不爱搜录具有博客特征的网页。由于当时考虑不周到,发表之后,受到个别网友批评指正。事实上,博客特征的网页容易产生重复内容,高度重复才是引起百度不收录 WordPress 的真正原因。经过深思熟虑,以及对蜘蛛访问日志的观察和分析,我对百度收录 WordPress 博客异常的原因得出新的结论。

  1. 安装 SEO 插件后,百度不收录页面。

  很多采用 WordPress 建站的朋友都接触过 All in One SEO 这个插件。这个插件可以让新手一键搞定 WordPress 的站内优化。事实证明,这款插件对 google 优化非常的完美,但百度却总容易出现不收录的情况。我曾经一度怀疑百度会认为 All in One SEO 插件存在优化过度的问题,从而导致网站降权,不收录。实际上,All in One SEO 的网页并没有被百度降权,导致百度不收录的罪魁祸首是它的 noindex 设置。

  noindex 标签的作用是向搜索引擎申明该网页禁止被搜录和索引,谷歌蜘蛛爬行到这样标签的页面,会自动丢弃掉该页并继续爬行其他页面,从而减小文章重复度,利于站内目标文章页权重的集中。百度蜘蛛遇到 noindex 标签的页面后,同样会丢弃掉该页。与谷歌不同的是,百度蜘蛛一般不再爬行该页面包含的文章链接,直接返回上一级目录。由于包含在该页中的文章无法被百度蜘蛛爬行到,所以页目录之下的文章将不会被索引。

  解决办法:

  取消 All in One SEO 中 noindex 设置。

  2.WordPress 模板导致的原因。

  WordPress 之所以流行,与其强大的插件扩展能力和数量丰富的主题模板密不可分。我曾经说过,使用 WordPress 建站的人,百分之 99% 都直接采用现成的主题来建站。同样的模板必然导致网络中出现大量高度重复网站结构和内容。百度不喜欢重复的内容,这些重复内容当然也包含网站模板的 HTML 代码。

  SEOer 通常会选择一些使用人数较少的模板来做 SEO 博客,同时还会对代码部分做一些更改,如 ID 部分名称,title 描述,CSS 名称等等。这些操作的目的,是使得网页模板代码尽量避免与其他网站重复,从而更有利于文章的搜录。当博客正文内容字数越少时,模板重复对收录的影响就会变得越大。

  解决办法:

  1). 增加文章字数。

  2). 选择非热门 WordPress 主题。

  3). 对现有主题进行修改。

  3.WordPress 摘要设置不当造成站内文章重复。

  百度也好,谷歌也罢,没有哪一家搜索引擎喜欢重复的文章。当一篇文章出现在同一网站内多个不同的页面中,搜索引擎将花费更多的处理时间来判断哪一篇文章才是正文。当搜索引擎从程序上难以无法判断主次时,会降权收录文章第一次被索引的页面,或者直接 K 掉这些重复的页面。于是很多 WordPress 站长在百度里 site 自己的网址,然后惊讶的发现:出现在结果前面的,竟然全都是日历页,归档页或分类目录,而文章正文内容却被百度隐藏而作为补充内容而存在,甚至压根就不被索引。

  导致这样的原因是因为你在录入文章数据的时候,既没有采用 more 标签对文章进行截断,也没有手动添加摘要。 WordPress 默认情况下,会将 more 标签之前的内容作为摘要输出到首页,标签目录,分类目录,归档目录,日历目录下。如果没有用 more 标签进行截断,也没有手动输入摘要,那么文章正文会同时出现在首页,几个目录页,以及文章页中。由于首页比目录页权重高,目录页比文章页权重高,百度以为文章页权重最低,便优先舍弃掉了。 google 的真正从技术上实现了文章的筛选机制,能保文章页被正常的收录,而百度这方面的技术尚需进一步完善。

  解决办法:

  1). 每个文章前一两段后添加 more 标签。

  2). 手动添加文章摘要,不能与 more 标签之前相同。

  3). 精简标签数量。

  4.URL 设置不合理,不利于收录。

  在很多 SEO 教程里,都提出过目录不宜过深。受到这一思想影响,许多站长就将目录页,文章页都控制在二级目录以内,以为这样可以让网页更好的被收录。殊不知,这样的 URL 方式其实并不利于 SEO 。搜索引擎蜘蛛爬行算法不光包含 URL 深度,同时还包括 URL 的重复度。当蜘蛛需要爬行一个网站时,首先需要根据网站的权重算出索引的深度和重复数,当网站权重越高时,蜘蛛爬行的深度就越深,允许的重复数就越大。蜘蛛在索引某一网站的时候,当深度操过一定层次后就会终止爬行其子目录。在爬行某个层次链接的过程中,URL 重复数度超过一定数量,就会结束对该层目录的爬行。

  如果你的站内除了根目录就是 2 级页面,文章数量少时还好,如果文章数量一多,便会加大搜索引擎引擎服务器的负荷,从而引起蜘蛛反感。

  解决办法:

  一般而言,搜索引擎对于新站爬行层次都在三层左右。最佳的目录设置方案应当是目录/时段/正文。虽然这样的分类方式在建站初期收录处在劣势,但对网站 (尤其是对靠长尾关键词取胜的站点) 的长期发展百利而无一害。我个人认为,这种目录结构是对搜索引擎最友好的,最容易被收录的结构。