Question

我的Google App Engine网站正被许多机器人抓取，并且最近情况更加糟糕。 Bot数量激增，其中大多数不检查robots.txt，这使我付出了代价。有没有办法防止那些不检查robots.txt的不良机器人启动应用程序引擎？

Answer 1

不幸的是，robots.txt仅对行为良好且能够正确实施和遵守约定的机器人有效。来自How do I prevent robots scanning my site?：

防止机器人访问您站点的快速方法是将这两个行进入服务器上的/robots.txt文件：
User-agent: *
Disallow: /
但这仅适用于行为良好的机器人。

请参见Can I block just bad robots?

并从引用的链接开始：

我可以只阻止坏机器人吗？

理论上是，实际上是，不是。如果恶意机器人遵循/robots.txt，   并且您知道它在用户代理字段中扫描的名称。那么你   可以在/robotst.txt中创建一个节以专门排除它。   但是几乎所有不良机器人都会忽略/robots.txt，这毫无意义。

如果错误的机器人使用单个IP地址运行，则可以阻止其   通过服务器配置或通过   网络防火墙。

如果机器人的副本在许多不同的IP地址上运行，例如   作为大型Botnet一部分的被劫持的PC，那么它就变成了   更加困难。最好的选择是使用高级防火墙规则   自动阻止访问以下IP地址的配置   建立许多联系；但这会打击好的机器人，也可能打击坏的机器人   机器人。

防止不检查robots.txt的恶意机器人启动应用程序引擎

1 个答案: