从Google Cloud Dataflow输出排序的文本文件

时间:2016-08-23 20:38:37

标签: google-cloud-dataflow

我在Google Cloud DataFlow中有一个PCollection<String>,我通过TextIO.Write.to将其输出到文本文件中:

PCollection<String> lines = ...;
lines.apply(TextIO.Write.to("gs://bucket/output.txt"));

目前,每个输出分片的行都是随机顺序。

是否可以让Dataflow按排序顺序输出行?

1 个答案:

答案 0 :(得分:3)

Dataflow不直接支持。

对于有界PCollection,如果您对输入进行了很好的分片,那么您可以编写带有Sink实现的排序文件,对每个分片进行排序。您可能需要参考TextSink实现以获得基本大纲。