将流转换为迷你批处理以加载到bigquery

时间:2019-07-04 15:55:41

标签: google-cloud-platform google-bigquery google-cloud-dataflow apache-beam

我想建立以下管道:

pub/sub --> dataflow --> bigquery

数据正在流式传输,但是我想避免将数据直接流式传输到BigQuery中,因此我希望在数据流计算机中批量打包小块,然后在它们达到一定大小时将它们作为加载作业写入BQ。 /时间。

我找不到使用python apache beam SDK(仅Java)如何执行此操作的任何示例。

1 个答案:

答案 0 :(得分:2)

这是正在进行的工作。 FILE_LOADS method仅适用于批处理管道(带有use_beam_bq_sink实验标记,它将是future中的默认标记。

但是,对于流传输管道,如code所示,它将引发一个NotImplementedError并显示以下消息:

  

仅在批处理管道上支持将文件加载到BigQuery。

有一个开放的JIRA ticket,您可以在其中跟踪进度。