WordPress 防采集防恶意爬虫的一点思路

前一阵子小编接到一个客户的反映，网站被一个 dedecms 站点采集了，需求小编协助防止网站被采集。当时小编也没有头绪，只好叫客户先把服务器日志发过来分析下了。通过查看服务器日志，小编发现一个空 http_user_agent 的 IP 频繁的对网站发起请求。经过站长工具查询发现该 IP 正式采集客户网站的织梦站点的 IP 。当时小编立即联系客户，叫客户屏蔽这个 IP 。客户屏蔽 IP 后当天立马就看到效果了，可是第三天的时候，该织梦站点换了个 IP 又开始对客户的站点进行采集了。显然封 IP 的方法不是长久之计。正好有个好基友找到小编问如何判断浏览器类型来返回不同 css 。小编立马想到了客户被采集的事，那么也可以通过判断 HTTP_USER_AGENT 来达到防止采集的，代码如下：

if(!$_SERVER['HTTP_USER_AGENT']) { //判断是否为空 AGENT
header("Content-type: text/html; charset=utf-8");
echo '不许采集！因为采集的站长 MJJ！';
exit;
}

客户使用了以上代码之后，直到小编发布此篇文章时也未被再次采集了。

另外可能有人会问代码加到哪？（PS：将以上代码丢到根目录的 index.php 或者 functions.php 文件的<?php 之后即可。当然其他 php 程序也可以使用此方法进行防采集，只需要将此代码加到程序的通用文件或者是入口文件中即可。）

另外利用 apache 的.htaccess 文件也可以对访客的 http_user_agent 进行判断达到防止恶意爬虫以及采集的效果，示例代码如下：（PS：实际运用中需要根据情况进行修改）

RewriteCond %{HTTP_USER_AGENT} ".*EmbeddedWB.*" [OR]
RewriteCond %{HTTP_USER_AGENT} ".*QunarBot.*" [OR]
RewriteCond %{HTTP_USER_AGENT} ".*Windows 98.*" [OR]
RewriteCond %{HTTP_USER_AGENT} "^Mozilla/4.0$"
RewriteRule ^(.*)$ https://www.weixiaoduo.com/213.html

由于网上能下载的大部分的采集程序都是空 agent 的，所以小编的方法可以屏蔽掉绝大多数的采集程序，如果你会分析日志的话，基本上已经没有人能很顺利的采集你网站的内容了。

WordPress 防采集防恶意爬虫的一点思路

WordPress 防采集防恶意爬虫的一点思路

订单服务

媒体中心

服务支持

使用条款

关于公司