网络抓取工具(来自搜索引擎和非搜索引擎)可以通过什么方式影响网站统计信息(例如,在对AB测试不同的网页版本时)?有什么方法可以解决这些问题?
例如:
许多编写网页抓取工具的人经常会删除他们的Cookie并屏蔽他们的IP,因此每次抓取网站时,网页抓取工具通常会显示为不同的用户吗?
用什么方法来识别某些东西是机器人? (我猜测任何足够复杂的机器人都可以与真实用户无法区分,如果它想 - 这是正确的吗?)
基于以下评论澄清一下:我也对我的网站被特定目标(可能是非法爬虫)的情况感兴趣。
答案 0 :(得分:4)
检测机器人的一些简单方法:
/robots.txt
- 只有机器人(以及可能几乎都是机器人的极客)会看到这一点。msnbot/2.0b (+http://search.msn.com/msnbot.htm
或Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.2.1; aggregator:Spinn3r (Spinn3r 3.1); http://spinn3r.com/robot) Gecko/20021130
),所以看到这是一个非常强烈的机器人指示。在这些之间,您应该毫不费力地确定哪些来自机器人,哪些来自真人。
最后,总会有令人讨厌和/或愚蠢的机器人难以察觉。但是,至少根据我的经验,在野外也没有太多。
答案 1 :(得分:1)
抓取工具经常按顺序抓取 - 比如,页面上的第一个链接,然后是第二个链接。