关于如何识别机器人的文章有一些很好的信息。您可能会考虑的其他事项。
- 如果您看到HTML页面的请求,但页面使用的图像或脚本文件的请求后面没有,则该请求很可能来自爬虫。如果您看到许多来自同一IP地址的内容,那几乎可以肯定是一个爬虫。它可能是Lynx浏览器(仅限文本),但它更可能是爬虫。
- 很容易发现可以非常快速地扫描整个网站的抓取工具。但是一些爬虫的速度变慢,在页面请求之间等待5分钟或更长时间。如果您看到来自同一IP地址的多个请求,随着时间推移而是以非常规的间隔展开,则可能是一个爬虫。
- 来自同一IP的日志中的重复403(未授权)条目。在放弃之前,人类很少会遭受超过一些403错误的影响。一个不成熟的爬虫会盲目地尝试网站上的URL,即使它有数十个403.
- 从同一IP地址重复404。再一次,人类会在少数404后放弃。一个爬虫会盲目地推动......“我知道这里有一个很好的网址某处。”
- 用户代理字符串,它不是主要浏览器的代理字符串之一。如果用户代理字符串看起来不像浏览器的用户代理字符串,那么它可能是一个机器人。请注意,反之则不然;许多机器人将用户代理字符串设置为已知的浏览器用户代理字符串。