在GAE上保存数据:日志记录与数据存储区

时间:2013-10-16 13:37:54

标签: python google-app-engine

我有一个谷歌应用引擎应用程序,必须处理大量的数据收集。我收集的数据是每天数百万条记录。正如我所看到的,有两种简单的方法可以解决这个问题,以便能够分析数据:

    1。使用logger API生成应用程序引擎日志,然后尝试将这些日志加载到一个大查询(或者更简单地导出到CSV并使用excel进行分析)。
    2。将数据保存在app引擎数据存储区(ndb)中,然后稍后下载该数据/尝试将其加载到大查询中。

    有没有更好的方法呢?

    谢谢!

1 个答案:

答案 0 :(得分:4)

BigQuery有一个新的Streaming API,他们声称这是为大量实时数据收集而设计的。

来自实践的建议:我们目前通过方法1记录每天20M +多事件记录,如上所述。它工作得很好,除非没有调用批量上传器(通常每5分钟),然后我们需要检测这个并重新运行导入器。 此外,我们目前正在迁移到新的Streaming API,但还没有投入生产,所以我不能说它有多可靠。