GAE:计划从第三方站点导入大型压缩文件

时间:2011-03-06 14:45:51

标签: python google-app-engine

我正在开发一个Python网络应用程序,需要定期从第三方网站导入大量(根据GAE限制)gzip文件。想想rdf导出DMOZ项目定期生成。

这意味着每天获取一个500多MB的gzip文件,进行解压缩,解析,处理并将结果存储在GAE的数据存储区中供以后使用。

考虑到最大下载,处理时间等限制,在GAE上实现此功能的正确方法是什么?

2 个答案:

答案 0 :(得分:1)

App Engine中下载文件大小的限制目前为64MB。因此,您有两个选择:

  • 使用HTTP范围标题以块的形式下载和处理文件。
  • 使用外部服务进行下载,将其拆分为多个部分,然后将这些部分发送到App Engine应用程序。

答案 1 :(得分:0)

我最初的直觉反应(不知道gzip文件中的内容)是在其他地方进行处理(AWS?),然后将处理后的数据推送到GAE应用程序中。