应用错误收集

时间：2010-04-12 18:18:58

标签： web-crawler

网络抓取工具（来自搜索引擎和非搜索引擎）可以通过什么方式影响网站统计信息（例如，在对AB测试不同的网页版本时）？有什么方法可以解决这些问题？

例如：

基于以下评论澄清一下：我也对我的网站被特定目标（可能是非法爬虫）的情况感兴趣。

答案 0 :(得分：4)

检测机器人的一些简单方法：

点击/robots.txt - 只有机器人（以及可能几乎都是机器人的极客）会看到这一点。
用户代理 - 负责机器人的UA字符串中通常有一个URL（例如msnbot/2.0b (+http://search.msn.com/msnbot.htm或Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.2.1; aggregator:Spinn3r (Spinn3r 3.1); http://spinn3r.com/robot) Gecko/20021130），所以看到这是一个非常强烈的机器人指示。
JavaScript - 机器人不会执行它，所以如果您，例如，使用JavaScript设置cookie，当您在服务器上看到该cookie时，您可以非常确定它是由“真正的”浏览器发送的。
源IP - 合法抓取工具通常会有自己的域，反向DNS查找会显示（这就是Google suggests that you identify the Googlebot的方式）。

在这些之间，您应该毫不费力地确定哪些来自机器人，哪些来自真人。

最后，总会有令人讨厌和/或愚蠢的机器人难以察觉。但是，至少根据我的经验，在野外也没有太多。

答案 1 :(得分：1)

抓取工具经常按顺序抓取 - 比如，页面上的第一个链接，然后是第二个链接。