我想建立以下管道:
pub/sub --> dataflow --> bigquery
数据正在流式传输,但是我想避免将数据直接流式传输到BigQuery中,因此我希望在数据流计算机中批量打包小块,然后在它们达到一定大小时将它们作为加载作业写入BQ。 /时间。
我找不到使用python apache beam SDK(仅Java)如何执行此操作的任何示例。
答案 0 :(得分:2)
这是正在进行的工作。 FILE_LOADS
method仅适用于批处理管道(带有use_beam_bq_sink
实验标记,它将是future中的默认标记。
但是,对于流传输管道,如code所示,它将引发一个NotImplementedError
并显示以下消息:
仅在批处理管道上支持将文件加载到BigQuery。
有一个开放的JIRA ticket,您可以在其中跟踪进度。