使用BigQueryIO写入大(> 20KB)记录

时间:2015-04-13 19:48:23

标签: google-cloud-dataflow

从文档中可以清楚地看到这一点,但看起来BigQueryIO.write执行流式写入,而limits the row size to <20KB又是如此?

是否可以配置支持更大(1MB)行大小的非流式BigQuery写入?我的DataFlow作业是一个批处理作业,而不是流式作业,并且不需要BigQuery流,在这种情况下不需要,因为它限制我导入我的数据。

如果没有,将大行导入BigQuery的推荐工作流程是什么?我想我可以运行DataFlow ETL并使用TextIO将我的数据写入文本文件,但是我必须在此管道之外添加一个手动步骤才能触发BQ导入?

1 个答案:

答案 0 :(得分:1)

Batch Datflow作业不会将数据流式传输到BigQuery。数据写入GCS,然后我们执行BigQuery导入作业以导入GCS文件。因此,流限制不应适用。

请注意,导入作业由服务执行,而不是由工作程序执行,这就是为什么在BigQueryIO.write中没有看到此代码的原因。