检测网页抓取工具的最佳和最有效的方法

时间:2010-06-29 19:07:47

标签: web-crawler detection

有许多方法可以假装成一个人。那么看过去的最佳方法是什么?

1 个答案:

答案 0 :(得分:0)

最有效的方法是Captha,但可以降低用户友好性。因此,最好的方法是分析您的流量程序,只要您的代码检测到异常,只需要求用户在严格的时间内回答问题。

了解基本原理。没有人写一个爬虫只读一页或一篇文章。有些人想要这一切,有些人想要它快,而有些人则想要它。有些甚至可能来自不同的IP,但随后他们以相同的时间差距打出相同的风格。爬虫和人类之间最大的区别就是爬行器是关于什么时候打击,人类懒惰的纪律。爬行者的效率足以让很多人联合起来,人类不会等等。任何听起来像流量日志中的模式的东西都只是一个爬虫。