背景:
诸如bit.ly,ow.ly instagr.am和gowal.la之类的站点域名是其他地方的缩写词。由于大多数网址实际上转发到其他第三方网站,我认为他们可以处理相当沉重的负载。
问题:
与抓取“真实”内容页面(即blogger.com/)相比,从单个域(即ow.ly)抓取301重定向时是否有不同的礼让度量标准?
更具体地说:与传输实际内容的普通网站相比,我们希望每天能够访问发布301重定向的网站多少次。
一些初步想法:
无论如何,我希望当我们讨论301重定向与“真实”页面爬行(这是一个真正的“页面爬行”时,我所做的这一非常原始的事实调查会激发一些关于定义“礼貌”指标差异的想法。带宽密集型)。
答案 0 :(得分:1)
如有疑问,请检查robots.txt
。有一个名为Crawl-delay
的非标准扩展,您可以想象它指定请求之间等待的秒数。
robots.txt
没有这样的限制,也有一个人性化的评论说“机器人欢迎”。只要您不是滥用,您可能不会遇到问题。还有评论说他们有API。使用该API可能比抓取更有用。
至于定义虐待......好吧,不幸的是,这是一个非常主观的事情,并且不会有任何一个正确的答案。您可能需要向每个特定供应商询问他们的建议和限制是什么,如果他们不通过其网站上的文档robots.txt
提供此信息,或通过实际的API提供此信息,这些API本身可能已明确定义访问限制。