在数据流中的Write.to(Sink)中设置输出分片数

时间:2016-03-30 18:01:01

标签: google-cloud-dataflow

我正在通过在数据流中调用FileBasedSink来向PCollection.apply(Write.to(MySink))扩展Write.to的自定义接收器(非常简单到XmlSink.java)。但是,默认情况下,调用TextTO.Write.withNumShards只会导致3个输出分片?有没有什么办法可以在定制的接收器类定义中定义输出分片的数量(如PTransformer)?或者我必须定义另一个自定义TextIO.Write,如{{1}}?

1 个答案:

答案 0 :(得分:0)

不幸的是,现在FileBasedSink不支持指定分片数。

实际上,你获得的分片数量将取决于框架如何选择优化管道部分来生成你正在编写的集合,因此基本上无法控制它。

我已经为您的请求提交了a JIRA issue,因此您可以订阅状态。