我使用Google Cloud Dataflow处理绑定数据并输出到BigQuery,我希望它可以处理某些内容并编写内容(如流,而不是批处理),我有什么方法可以做到这一点?
目前,Dataflow会等待工作进程没有所有数据,并写入BigQuery,我尝试添加FixedWindow并使用Log Timestamp参数作为window_timestamp,但它不起作用。
我想知道:
我的源代码在这里:http://pastie.org/10907947
非常感谢!
答案 0 :(得分:3)
您需要在streaming
中将true
属性设置为PipelineOptions
。
有关详细信息,请参阅"streaming execution"。
此外,您还需要使用可生成/使用无界数据的源/接收器。 BigQuery已经可以在两种模式下编写,但目前TextIO只能读取有界数据。但是,编写一个自定义的无限制源来扫描目录中的新文件绝对是可能的。