应用错误收集

背景：

诸如bit.ly，ow.ly instagr.am和gowal.la之类的站点域名是其他地方的缩写词。由于大多数网址实际上转发到其他第三方网站，我认为他们可以处理相当沉重的负载。

问题：

与抓取“真实”内容页面（即blogger.com/）相比，从单个域（即ow.ly）抓取301重定向时是否有不同的礼让度量标准？

更具体地说：与传输实际内容的普通网站相比，我们希望每天能够访问发布301重定向的网站多少次。

一些初步想法：

我最初的猜测是（10E6 = 1,000,000），因为我在网上看到的结果表明，每天10E3-10E5次点击一个成熟的网站并不是一个大问题，考虑到像tumbler这样的大型网站每天（10E7 = 10,000,000 +）次观看，谷歌等网站每天的观看次数为10E8（数十亿）。

无论如何，我希望当我们讨论301重定向与“真实”页面爬行（这是一个真正的“页面爬行”时，我所做的这一非常原始的事实调查会激发一些关于定义“礼貌”指标差异的想法。带宽密集型）。

如有疑问，请检查robots.txt。有一个名为Crawl-delay的非标准扩展，您可以想象它指定请求之间等待的秒数。

你提到过bit.ly; their robots.txt没有这样的限制，也有一个人性化的评论说“机器人欢迎”。只要您不是滥用，您可能不会遇到问题。还有评论说他们有API。使用该API可能比抓取更有用。

至于定义虐待......好吧，不幸的是，这是一个非常主观的事情，并且不会有任何一个正确的答案。您可能需要向每个特定供应商询问他们的建议和限制是什么，如果他们不通过其网站上的文档robots.txt提供此信息，或通过实际的API提供此信息，这些API本身可能已明确定义访问限制。