php - 将<insert popular =“”website =“”“here =”“>限制我访问他们的网站，如果我请求它太多次了吗？</insert>

时间：2009-12-27 18:29:06

标签： php web-crawler blogger

我问这个是因为我正在创建一个蜘蛛来从blogger.com收集大学数据可视化项目的数据。

蜘蛛会在博客browse function上查找约17,000个值，并且（匿名）保存某些值，如果它们符合正确的标准。

我一直在运行蜘蛛（用PHP编写）并且工作正常，但我不希望将我的IP列入黑名单或其他类似内容。有没有人对企业网站有任何了解以及他们对这类事情的限制？

此外，如果有限制，我可以做些什么来规避它们？目前我能想到的只是稍微帮助解决这个问题;在对站点的调用之间添加随机延迟（0到5秒之间）或通过随机代理运行脚本来伪装请求。

通过不得不做上述方法之类的事情，它让我觉得我做错了。如果他们出于某种原因阻止我，我会很生气，因为blogger.com归谷歌所有，他们的主要产品是网络蜘蛛。 Allbeit，他们的蜘蛛不会将其请求发送到一个网站。

答案 0 :(得分：10)

可能他们有某种限制，是的，有办法绕过它们（机器人农场和使用随机代理），但很可能它们都不是完全合法的，技术上也不可行:) / p>

如果您正在访问博主，无论如何都无法使用API key登录并直接查询数据？它可以比抓取页面更可靠，更容易出错，这可能会被禁止，并且一旦请求数量足够大以至于他们开始关注，就会导致麻烦。 Google对每个API密钥允许的流量非常慷慨。

如果一切都失败了，为什么不给他们写一封电子邮件。谷歌有着对学术项目友好的声誉，如果需要，他们可能会给你更多的流量。

答案 1 :(得分：3)

由于您正在编写蜘蛛，请确保它读取robots.txt文件并执行相应操作。此外，HTTP的规则之一是在同一服务器上不要有超过2个并发请求。别担心，谷歌的服务器非常强大。如果你当时只阅读第一页，他们可能甚至都不会注意到。如果你注射1秒间隔，它将是完全无害的。

另一方面，使用僵尸网络或其他分布式方法被认为是有害行为，因为它看起来像DDOS攻击。你真的不应该在那个方向思考。

答案 2 :(得分：1)

如果您想确切知道，请将电子邮件发送到blogger.com并询问他们。

答案 3 :(得分：-2)

你可以通过TOR申请，每次以性能费用你都会有不同的IP。