Google抓取导致API速率限制

时间:2015-03-31 04:07:10

标签: php api google-crawlers

目前谷歌抓取每秒抓取我的网站大约10次,这导致一些instagrams API - 我正在使用 - 很快达到他们的小时费率限制。

他们是否有办法阻止谷歌抓取运行一段PHP代码?我仍然希望他们抓取页面但不会触发api请求。

1 个答案:

答案 0 :(得分:3)

既然您想要,仍然抓取了网页,robots.txt可能不适合您。

通常,你要问,你的API实现是对的吗?您应该使用API​​来获取某些数据或执行某些操作。

你不应该做的是,每个PageView都要求API提供相同的信息。请改为缓存它。

有时可以将结果简单地缓存到txt文件中,有时您希望将数据爬网到自己的数据库中。

如果这不是你的选择,你可以detect the google bot这样:

if(strstr(strtolower($_SERVER['HTTP_USER_AGENT']), "googlebot"))
{
    // what to do
}

至少为Googlebot提供缓存版本。


另请注意,这不是Googlebot唯一的问题。那里有很多机器人。还有一些糟糕的机器人,它们构成普通用户。此外,如果您负载很重,这也可能是一个问题。