HEAD请求是否应遵守robots.txt?

时间:2013-01-31 06:56:57

标签: header web-crawler robots.txt

我有一个网址列表,希望找到他们是否重定向到其他地方,如果确实如此,他们的最终位置是什么。我这样做是通过向这些网址发送 HEAD请求

该列表包含指向某些主机的链接,这些主机在 robots.txt 中禁用我的机器人(一般任何机器人)。

我的问题是,为了礼貌 -

  1. 我是否应该关注robots.txt以获取HEAD请求,并停止请求这些主机?

  2. 如果robots.txt中提到了抓取延迟,我是否应该遵守这些HEAD请求?

  3. 是否有可以为我完成这项工作的网络服务并返回一批输入网址的最终网址?

1 个答案:

答案 0 :(得分:0)

你应该始终遵守robots.txt,即使对于HEAD请求也是如此。如果您不这样做,您不仅违反了网站的礼貌偏好,而且还冒着从网站永久阻止您的IP的风险。对网站上受限制且非人类可访问的目录/页面的简单HEAD请求可以将您置于运营商的禁令列表中。

  
      
  1. 我是否应该关注robots.txt以获取HEAD请求,并停止请求这些主机?
  2.   

您应该关注robots.txt,或者如果您已被禁止,请停止请求这些主机。

  
      
  1. 如果robots.txt中提到了抓取延迟,我是否应该遵守这些HEAD请求?
  2.   

  
      
  1. 是否有可以为我做这项工作的网络服务并返回一批输入网址的最终网址?
  2.   

我不知道,但也许您可以采用现有的爬虫来做到这一点。您更喜欢哪种编程语言?