如何知道HTTP请求是否是BOT

时间:2011-01-19 10:37:33

标签: seo user-agent web-crawler

我正在寻找BOTS用户代理的完整列表(爬虫,蜘蛛,推特机器人等)。

你知道什么吗?

由于

2 个答案:

答案 0 :(得分:4)

检查此列表: http://www.botsvsbrowsers.com/category/1/index.html

它包含4768个bot用户代理的总数。

完成机器人检测的另一种方法是以白名单方式使用反向方法,即检查用户代理是否不是机器人,然后其他任何东西都是机器人。 : - )

要编译非僵尸用户代理的完整列表,您可以使用http://www.user-agents.org/http://www.botsvsbrowsers.com/上的列表。

答案 1 :(得分:3)

长话短说:你不能,没有银弹。任何机器人都可以将他们的user-agent字符串设置为从“googlebot”到“spamalot”的任何内容。

你可以自己看看,你需要做的就是去Shinnok指向的第一个网站,并开始计算那里列出的所有Googlebot/2.X机器人。你阻止它们,他们将僵尸程序的名称改为随机乱码等等。最后,当你试图验证它们是否是机器人时,你最终会得到一个10k的机器人列表,这将减少你的用户加载时间。