防止不检查robots.txt的恶意机器人启动应用程序引擎

时间:2019-01-30 19:22:58

标签: google-app-engine bots

我的Google App Engine网站正被许多机器人抓取,并且最近情况更加糟糕。 Bot数量激增,其中大多数不检查robots.txt,这使我付出了代价。有没有办法防止那些不检查robots.txt的不良机器人启动应用程序引擎?

1 个答案:

答案 0 :(得分:1)

不幸的是,robots.txt仅对行为良好且能够正确实施和遵守约定的机器人有效。来自How do I prevent robots scanning my site?

  

防止机器人访问您站点的快速方法是将这两个   行进入服务器上的/robots.txt文件:

User-agent: *
Disallow: /
     

但这仅适用于行为良好的机器人。

     

请参见Can I block just bad robots?

并从引用的链接开始:

  

我可以只阻止坏机器人吗?

     

理论上是,实际上是,不是。如果恶意机器人遵循/robots.txt,   并且您知道它在用户代理字段中扫描的名称。那么你   可以在/robotst.txt中创建一个节以专门排除它。   但是几乎所有不良机器人都会忽略/robots.txt,这毫无意义。

     

如果错误的机器人使用单个IP地址运行,则可以阻止其   通过服务器配置或通过   网络防火墙。

     

如果机器人的副本在许多不同的IP地址上运行,例如   作为大型Botnet一部分的被劫持的PC,那么它就变成了   更加困难。最好的选择是使用高级防火墙规则   自动阻止访问以下IP地址的配置   建立许多联系;但这会打击好的机器人,也可能打击坏的机器人   机器人。