在AppEngine上支付抓取工具

时间:2013-11-07 16:25:44

标签: google-app-engine web-crawler

昨天我的应用程序被HUMANS访问了35次。然而,似乎一台机器正在抓取该网站。我在几个小时内(大多数是前端实例时间)过度。

今天我每天最多支付5美元。对于35个真实的人来说,这似乎太过分了。

对于阻止普通用户访问我的网站的抓取工具,我感觉不太好。给你们两个问题:

  1. 它发生是否正常?
  2. 我可以做些什么来投资真实用户而不是爬虫? (我不是在谈论不引用我的应用程序)
  3. app:www.conceptstore.me

1 个答案:

答案 0 :(得分:3)

行为良好的抓取工具应该:

  • 遵循/robots.txt中的规则 - 请上传一个。仅此一点就足够了。
  • 提供不同的User-Agent HTTP请求标头 - 请查看自动记录在App Engine日志中的用户代理,然后返回您不喜欢的用户代理的错误页面。