我问这个是因为我正在创建一个蜘蛛来从blogger.com收集大学数据可视化项目的数据。
蜘蛛会在博客browse function上查找约17,000个值,并且(匿名)保存某些值,如果它们符合正确的标准。
我一直在运行蜘蛛(用PHP编写)并且工作正常,但我不希望将我的IP列入黑名单或其他类似内容。有没有人对企业网站有任何了解以及他们对这类事情的限制?
此外,如果有限制,我可以做些什么来规避它们?目前我能想到的只是稍微帮助解决这个问题;在对站点的调用之间添加随机延迟(0到5秒之间)或通过随机代理运行脚本来伪装请求。
通过不得不做上述方法之类的事情,它让我觉得我做错了。如果他们出于某种原因阻止我,我会很生气,因为blogger.com归谷歌所有,他们的主要产品是网络蜘蛛。 Allbeit,他们的蜘蛛不会将其请求发送到一个网站。
答案 0 :(得分:10)
可能他们有某种限制,是的,有办法绕过它们(机器人农场和使用随机代理),但很可能它们都不是完全合法的,技术上也不可行:) / p>
如果您正在访问博主,无论如何都无法使用API key登录并直接查询数据?它可以比抓取页面更可靠,更容易出错,这可能会被禁止,并且一旦请求数量足够大以至于他们开始关注,就会导致麻烦。 Google对每个API密钥允许的流量非常慷慨。
如果一切都失败了,为什么不给他们写一封电子邮件。谷歌有着对学术项目友好的声誉,如果需要,他们可能会给你更多的流量。
答案 1 :(得分:3)
由于您正在编写蜘蛛,请确保它读取robots.txt文件并执行相应操作。此外,HTTP的规则之一是在同一服务器上不要有超过2个并发请求。别担心,谷歌的服务器非常强大。如果你当时只阅读第一页,他们可能甚至都不会注意到。如果你注射1秒间隔,它将是完全无害的。
另一方面,使用僵尸网络或其他分布式方法被认为是有害行为,因为它看起来像DDOS攻击。你真的不应该在那个方向思考。
答案 2 :(得分:1)
如果您想确切知道,请将电子邮件发送到blogger.com并询问他们。
答案 3 :(得分:-2)
你可以通过TOR申请,每次以性能费用你都会有不同的IP。