我知道用户代理是一个指标,但这很容易欺骗。还有哪些其他可靠指标,访客真的是机器人?标题不一致?是否要求图片/ javascript?谢谢!
答案 0 :(得分:4)
CVSTrac使用honeypot页面来完成此任务。这是一个页面链接到爬虫到达网站的某个地方,但人们通常会忽略它。 CVSTrac更进一步,允许用户证明他是人。
答案 1 :(得分:3)
“是否要求图片/ javascript?”我会选择这个,但谷歌和其他人现在要求图片和javascript文件。
请求时间速度怎么样?机器人比人类更快地阅读你的内容。
答案 2 :(得分:2)
我们需要寻找4件事:
用户代理字符串。这很容易伪造,但抓取者通常会使用自己唯一的用户代理字符串。
页面的访问速度,如果每隔半秒左右访问一次以上,这通常是一个很好的指示
如果他们只请求HTML,或者他们请求整个页面。一些爬虫只会要求HTML结构。这通常是一个很好的提示。
传入的网址
答案 3 :(得分:2)
反向验证码也可以提供帮助;你可以使用display:none创建一个文本输入字段;在它的样式属性(或样式表)中。如果它被发布到,很可能你正在处理机器人。
编辑:这实际上是我在RSS阅读器中汇总的内容,如果我能找到源代码,我会链接一个很好的例子。
答案 4 :(得分:1)
看看Bad Behavior,这是一个采用各种机器人检测技术的库
答案 5 :(得分:0)
这不是captcha发明的吗?