GCP中的流水线

时间:2019-10-30 00:08:21

标签: google-cloud-platform google-bigquery google-cloud-dataflow google-cloud-composer

我定期从数据源收集大量数据并将其存储在GCS存储桶中。目前,它们存储在一个本地区域(伦敦)中。我们正在使用GCP服务(例如,作曲家,数据流或云函数等)的组合通过ETL将这些数据传递到位于同一地区(例如,euro-west2 London)的BigQuery表中。

除此之外,我想将这些数据(例如存储桶)通过管道传输到位于不同区域的不同BQ表。

因此,总的来说,输出是位于两个不同区域的大型查询表,如下所示:

GCS铲斗:项目1,伦敦的铲斗(europe-west2)

输出1:project1 region1(Europe-west2 London)上的BQ表-(现有)

预期: output2:project2 region2(EU)上的BQ表-多区域或比利时

我可以这样做吗?应该如何有效地做到这一点?

对此提出了建议和帮助。谢谢!

2 个答案:

答案 0 :(得分:0)

一种选择是使用BigQuery的cross region copy of your dataset。该功能目前处于Beta测试阶段,并且暂时免费(请注意,它可能并不总是免费的)。

尽管服务位置有限,但是Europe-west2和EU均受支持。

答案 1 :(得分:0)

除了跨区域复制外,您还可以设计管道,从GCS中读取文件,然后将其管道传输到Pub-Sub主题。然后,可以从Pub-Sub主题发送特定于区域的BigQuery吗?