google-cloud-dataflow:如何从数据库中读取数据并写入BigQuery

时间:2017-07-10 19:40:25

标签: google-bigquery google-cloud-storage google-cloud-dataflow

我需要从一些源数据库(如Oracle,MySQL)设置数据管道,并将数据加载到BigQuery。

如何使用google-cloud-dataflow从数据库(jdbc连接)读取数据并使用Python写入BigQuery表。

另外,我在内部部署的Hadoop集群中有一些hive表,如何将这些数据传输到BigQuery。

我无法找到正确的文档或示例来实现此目的。 能否请你指出正确的方向。

1 个答案:

答案 0 :(得分:0)

我在我的项目中应用了一个解决方案来提供这样的东西,你需要按照以下步骤操作:

  1. 按照此link将数据从Google Cloud SQL加载到Google Cloud storage

  2. 按照此linkGoogle cloud storage的CSV数据直接加载到BigQuery