应用错误收集

关于如何识别机器人的文章有一些很好的信息。您可能会考虑的其他事项。

如果您看到HTML页面的请求，但页面使用的图像或脚本文件的请求后面没有，则该请求很可能来自爬虫。如果您看到许多来自同一IP地址的内容，那几乎可以肯定是一个爬虫。它可能是Lynx浏览器（仅限文本），但它更可能是爬虫。
很容易发现可以非常快速地扫描整个网站的抓取工具。但是一些爬虫的速度变慢，在页面请求之间等待5分钟或更长时间。如果您看到来自同一IP地址的多个请求，随着时间推移而是以非常规的间隔展开，则可能是一个爬虫。
来自同一IP的日志中的重复403（未授权）条目。在放弃之前，人类很少会遭受超过一些403错误的影响。一个不成熟的爬虫会盲目地尝试网站上的URL，即使它有数十个403.
从同一IP地址重复404。再一次，人类会在少数404后放弃。一个爬虫会盲目地推动......“我知道这里有一个很好的网址某处。”
用户代理字符串，它不是主要浏览器的代理字符串之一。如果用户代理字符串看起来不像浏览器的用户代理字符串，那么它可能是一个机器人。请注意，反之则不然;许多机器人将用户代理字符串设置为已知的浏览器用户代理字符串。