DataFlow - 从BigQuery分区表中读取

时间:2018-03-20 10:05:19

标签: google-bigquery google-cloud-dataflow

使用DataFlow SDK 2.x,我想从BigQuery分区表中读取数据。

我到目前为止找到的唯一选项是使用BigQueryIO.Read.fromQuery(String query)方法和查询SELECT * FROM table WHERE _PARTITIONTIME = 'yyyy-MM-dd'

还有其他方法可以在DataFlow中读取分区的BigQuery表吗?

1 个答案:

答案 0 :(得分:0)

老实说,有一种更好的方法可以做到这一点。有两种方法可以实现性能,另一种方法是查看BigQuery API。

所以回想一下

    Select * from `tableName` 

对您的数据库来说是一项昂贵的操作。为了加快阅读时间,你可以改为:

    Select <field1>, <field2>, ...., from `tableName`

当然,在许多情况下列出所有字段名称是不可能的,但是你将获得大约两倍的速度。

但是,您可以按照示例here进行操作。这也将为您提供大约两倍的速度,并且更方便。

如果您需要提供链接的编码示例,请告诉我!干杯!