重定向与#34; true"页面点击:Crawler的观点

时间:2012-06-27 15:21:09

标签: http-status-code-301 url-shortener web-crawler

背景:

诸如bit.ly,ow.ly instagr.am和gowal.la之类的站点域名是其他地方的缩写词。由于大多数网址实际上转发到其他第三方网站,我认为他们可以处理相当沉重的负载。

问题:

与抓取“真实”内容页面(即blogger.com/)相比,从单个域(即ow.ly)抓取301重定向时是否有不同的礼让度量标准?

更具体地说:与传输实际内容的普通网站相比,我们希望每天能够访问发布301重定向的网站多少次。

一些初步想法:

  • 我最初的猜测是(10E6 = 1,000,000),因为我在网上看到的结果表明,每天10E3-10E5次点击一个成熟的网站并不是一个大问题,考虑到像tumbler这样的大型网站每天(10E7 = 10,000,000 +)次观看,谷歌等网站每天的观看次数为10E8(数十亿)。

无论如何,我希望当我们讨论301重定向与“真实”页面爬行(这是一个真正的“页面爬行”时,我所做的这一非常原始的事实调查会激发一些关于定义“礼貌”指标差异的想法。带宽密集型)。

1 个答案:

答案 0 :(得分:1)

如有疑问,请检查robots.txt。有一个名为Crawl-delay的非标准扩展,您可以想象它指定请求之间等待的秒数。

你提到过bit.ly; their robots.txt没有这样的限制,也有一个人性化的评论说“机器人欢迎”。只要您不是滥用,您可能不会遇到问题。还有评论说他们有API。使用该API可能比抓取更有用。

至于定义虐待......好吧,不幸的是,这是一个非常主观的事情,并且不会有任何一个正确的答案。您可能需要向每个特定供应商询问他们的建议和限制是什么,如果他们不通过其网站上的文档robots.txt提供此信息,或通过实际的API提供此信息,这些API本身可能已明确定义访问限制。