Dataflow GroupBy - >基于密钥的多个输出

时间:2017-10-12 17:45:00

标签: google-cloud-dataflow apache-beam apache-beam-io

有没有简单的方法可以将GroupBy的输出重定向到基于组密钥的多个输出文件?

Bin.apply(GroupByKey.<String, KV<Long,Iterable<TableRow>>>create())
.apply(ParDo.named("Print Bins").of( ... ) 
.apply(TextIO.Write.to(*Output file based on key*))

如果Sink是解决方案,请与我分享一个示例代码吗?

谢谢!

1 个答案:

答案 0 :(得分:0)

Beam 2.2将包含一个API来实现这一点 - TextIO.write().to(DynamicDestinations),请参阅source。目前,如果您想使用此API,可以使用2.2.0-SNAPSHOT版本。请注意,此API是实验性的,可能会在Beam 2.3或更高版本中发生变化。