Question

我想建立以下管道：

pub/sub --> dataflow --> bigquery

数据正在流式传输，但是我想避免将数据直接流式传输到BigQuery中，因此我希望在数据流计算机中批量打包小块，然后在它们达到一定大小时将它们作为加载作业写入BQ。 /时间。

我找不到使用python apache beam SDK（仅Java）如何执行此操作的任何示例。

Answer 1

这是正在进行的工作。 FILE_LOADS method仅适用于批处理管道（带有use_beam_bq_sink实验标记，它将是future中的默认标记。

但是，对于流传输管道，如code所示，它将引发一个NotImplementedError并显示以下消息：

仅在批处理管道上支持将文件加载到BigQuery。

有一个开放的JIRA ticket，您可以在其中跟踪进度。