网页抓取工具如何影响网站统计信息?

时间:2010-04-12 18:18:58

标签: web-crawler

网络抓取工具(来自搜索引擎和非搜索引擎)可以通过什么方式影响网站统计信息(例如,在对AB测试不同的网页版本时)?有什么方法可以解决这些问题?

例如:

  1. 许多编写网页抓取工具的人经常会删除他们的Cookie并屏蔽他们的IP,因此每次抓取网站时,网页抓取工具通常会显示为不同的用户吗?

  2. 用什么方法来识别某些东西是机器人? (我猜测任何足够复杂的机器人都可以与真​​实用户无法区分,如果它想 - 这是正确的吗?)

  3. 基于以下评论澄清一下:我也对我的网站被特定目标(可能是非法爬虫)的情况感兴趣。

2 个答案:

答案 0 :(得分:4)

检测机器人的一些简单方法:

  1. 点击/robots.txt - 只有机器人(以及可能几乎都是机器人的极客)会看到这一点。
  2. 用户代理 - 负责机器人的UA字符串中通常有一个URL(例如msnbot/2.0b (+http://search.msn.com/msnbot.htmMozilla/5.0 (X11; U; Linux i686; en-US; rv:1.2.1; aggregator:Spinn3r (Spinn3r 3.1); http://spinn3r.com/robot) Gecko/20021130),所以看到这是一个非常强烈的机器人指示。
  3. JavaScript - 机器人不会执行它,所以如果您,例如,使用JavaScript设置cookie,当您在服务器上看到该cookie时,您可以非常确定它是由“真正的”浏览器发送的。
  4. 源IP - 合法抓取工具通常会有自己的域,反向DNS查找会显示(这就是Google suggests that you identify the Googlebot的方式)。
  5. 在这些之间,您应该毫不费力地确定哪些来自机器人,哪些来自真人。

    最后,总会有令人讨厌和/或愚蠢的机器人难以察觉。但是,至少根据我的经验,在野外也没有太多

答案 1 :(得分:1)

抓取工具经常按顺序抓取 - 比如,页面上的第一个链接,然后是第二个链接。