标签: google-cloud-dataflow
我在Google Cloud DataFlow中有一个PCollection<String>,我通过TextIO.Write.to将其输出到文本文件中:
PCollection<String>
TextIO.Write.to
PCollection<String> lines = ...; lines.apply(TextIO.Write.to("gs://bucket/output.txt"));
目前,每个输出分片的行都是随机顺序。
是否可以让Dataflow按排序顺序输出行?
答案 0 :(得分:3)
Dataflow不直接支持。
对于有界PCollection,如果您对输入进行了很好的分片,那么您可以编写带有Sink实现的排序文件,对每个分片进行排序。您可能需要参考TextSink实现以获得基本大纲。
PCollection
Sink
TextSink