网络抓取工具是否会读取HTTP标头?

时间:2014-02-08 13:55:30

标签: http https web-crawler bots

我拥有网址缩短服务,我想检测我收到的请求是否来自网络抓取工具。响应该请求,我发送HTTP头302,将请求者重定向到原始链接。我以为我可以提供一个不可见的响应链接,这样机器人也会向我发送该页面的请求,但普通用户不会。这是基于这样的假设:即使机器人读取标题并重定向,它们仍会扫描页面并将请求发送到其中的链接。这个假设是否正确?如果不是,我也可以通过Javascript重定向它们,但这不是重定向的标准方式(我想)。

1 个答案:

答案 0 :(得分:0)

是的,抓取工具肯定会遵循重定向。他们的目的是找到尽可能多的页面(或内容)。重定向后是该目标的基本要求。但是,我不知道商业爬虫是否阅读了重定向响应的主体。我认为它们不会,因为重定向页面上显示的信息永远不会显示给用户,因为它们总是被重定向到该页面。

还有其他像Crawljax这样的抓取工具,用于测试Web应用程序。他们会读取所有数据,但这些抓取工具不会(或不应该)用于抓取公共网络。