Question

由于机器人淹没我的网站，我的CPU使用率突然超过400％，我创建了一个robots.txt，如下所示，并将文件放在我的根目录中，例如“www.example.com /”：

User-agent: *
Disallow: /

现在Google尊重此文件，我的Google日志文件中不再出现这种情况。然而BingBot＆amp;百度蜘蛛仍会显示在我的日志中（并且很多）。

因为我的CPU使用量大幅增加了还有bandwith和我的托管服务提供商即将暂停我的帐户，我首先删除了我的所有页面（如果有一个讨厌的脚本），上传的干净页面，通过.htaccess＆amp;中的IP地址阻止所有机器人。然后创建了robots.txt文件。

我到处搜索确认我做了正确的步骤（还没有在.htaccess中尝试过“重写”选项）。

任何人都可以确认我所做的应该做的工作吗？（自从我开始这项冒险以来，我的CPU使用率在6天内降至120％，但至少阻止IP地址应该会将CPU使用率降低到通常的5-10％）。

Answer 1

如果这些是来自Bingbot和Baiduspider的合法蜘蛛，那么他们都应该尊重你给出的robots.txt文件。但是，如果这些文件之前已经编入索引，它们需要一段时间才能启动它并开始对其进行操作 - 这可能就是这种情况。

在这种情况下不适用，但应该注意的是，Baiduspider对robots.txt标准的解释在某些方面与其他主流机器人（即Googlebot）略有不同。例如，虽然标准将Disallow:记录上的URL路径定义为前缀，但Baiduspider仅匹配整个目录/路径名称。如果指定了http://example.com/private/，Googlebot将匹配网址Disallow: /priv，而Baiduspider则不会。

参考：
http://www.baidu.com/search/robots_english.html

BingBot＆amp;百度蜘蛛不尊重robots.txt

1 个答案: