将数据从Google云端存储加载到BigQuery

时间:2016-10-02 18:25:03

标签: google-app-engine google-bigquery google-cloud-storage

我需要从Google Cloud Storage(GCS - > Temp table - > Main table)向BigQuery加载100个表格。我创建了一个python进程来将数据加载到BigQuery并在AppEngine中进行调度。因为我们有AppEngine的最长10分钟超时。我已在异步模式下提交作业,并在稍后的时间点检查作业状态。由于我有100个表需要创建一个监控系统来检查作业负载的状态。

需要维护几个表和一堆视图来检查作业状态。

操作过程并不复杂。还有更好的办法吗?

由于

1 个答案:

答案 0 :(得分:0)

当我们这样做时,我们只是使用像Beanstalkd这样的消息队列,在那里我们推送了一些后来必须检查的东西,然后我们编写了一个订阅该频道并处理该任务的小工人。

另一方面:BigQuery支持直接从Google云端存储查询数据。

用例:
- 通过查询联合数据源(BigQuery外部的位置)中的数据并将清理后的结果写入BigQuery存储,一次加载和清理数据。 - 拥有与其他表连接的少量频繁更改的数据。作为联合数据源,每次更新时都不需要重新加载频繁变化的数据。

https://cloud.google.com/bigquery/federated-data-sources