BingBot&百度蜘蛛不尊重robots.txt

时间:2012-07-10 23:10:42

标签: cpu-usage robots.txt bots

由于机器人淹没我的网站,我的CPU使用率突然超过400%,我创建了一个robots.txt,如下所示,并将文件放在我的根目录中,例如“www.example.com /”:

User-agent: *
Disallow: /

现在Google尊重此文件,我的Google日志文件中不再出现这种情况。 然而BingBot&百度蜘蛛仍会显示在我的日志中(并且很多)。

因为我的CPU使用量大幅增加了还有bandwith和我的托管服务提供商即将暂停我的帐户,我首先删除了我的所有页面(如果有一个讨厌的脚本),上传的干净页面,通过.htaccess&中的IP地址阻止所有机器人。然后创建了robots.txt文件。

我到处搜索确认我做了正确的步骤(还没有在.htaccess中尝试过“重写”选项)。

任何人都可以确认我所做的应该做的工作吗? (自从我开始这项冒险以来,我的CPU使用率在6天内降至120%,但至少阻止IP地址应该会将CPU使用率降低到通常的5-10%)。

1 个答案:

答案 0 :(得分:2)

如果这些是来自Bingbot和Baiduspider的合法蜘蛛,那么他们都应该尊重你给出的robots.txt文件。但是,如果这些文件之前已经编入索引,它们需要一段时间才能启动它并开始对其进行操作 - 这可能就是这种情况。

在这种情况下不适用,但应该注意的是,Baiduspider对robots.txt标准的解释在某些方面与其他主流机器人(即Googlebot)略有不同。例如,虽然标准将Disallow:记录上的URL路径定义为前缀,但Baiduspider仅匹配整个目录/路径名称。如果指定了http://example.com/private/,Googlebot将匹配网址Disallow: /priv,而Baiduspider则不会。

参考:
http://www.baidu.com/search/robots_english.html