我的Google App Engine网站正被许多机器人抓取,并且最近情况更加糟糕。 Bot数量激增,其中大多数不检查robots.txt,这使我付出了代价。有没有办法防止那些不检查robots.txt的不良机器人启动应用程序引擎?
答案 0 :(得分:1)
不幸的是,robots.txt
仅对行为良好且能够正确实施和遵守约定的机器人有效。来自How do I prevent robots scanning my site?:
防止机器人访问您站点的快速方法是将这两个 行进入服务器上的/robots.txt文件:
User-agent: * Disallow: /
但这仅适用于行为良好的机器人。
并从引用的链接开始:
我可以只阻止坏机器人吗?
理论上是,实际上是,不是。如果恶意机器人遵循/robots.txt, 并且您知道它在用户代理字段中扫描的名称。那么你 可以在/robotst.txt中创建一个节以专门排除它。 但是几乎所有不良机器人都会忽略/robots.txt,这毫无意义。
如果错误的机器人使用单个IP地址运行,则可以阻止其 通过服务器配置或通过 网络防火墙。
如果机器人的副本在许多不同的IP地址上运行,例如 作为大型Botnet一部分的被劫持的PC,那么它就变成了 更加困难。最好的选择是使用高级防火墙规则 自动阻止访问以下IP地址的配置 建立许多联系;但这会打击好的机器人,也可能打击坏的机器人 机器人。