GAE上大量URL抓取请求的经济高效的架构

时间:2013-01-28 16:04:45

标签: google-app-engine

GAE处理大量并发URL抓取请求的最具成本效益的架构是什么? (Python)的

我说的是数十万个并发API请求。

使用任务队列和同步URL获取请求不起作用,因为等待响应导致的延迟很高,并且将启动大量实例。

使用异步URL提取我遇到了问题,内存很小,可以处理一个实例上的响应,因此崩溃。

这样的一般成本效益架构如何在appengine上看起来像? 非常感谢任何建议!

1 个答案:

答案 0 :(得分:0)

我有同样的想法。我开始后端并通过异步写入和禁用上下文缓存和内存缓存来改进我的mermory。此外,后端可能是您在数千个提取操作中所需的内容,因为您可以管理它可以拥有多少内存,并且您不受任务队列的10分钟限制的影响。

我不知道它是否有帮助,但我的问题被描述为here并已解决。