按键将flink数据集拆分为多个并写入单独的文件

时间:2016-06-30 15:46:11

标签: apache-flink

我想根据元组2的整数值将DataSet<Tuple2<Integer, Point>>拆分为n个DataSet。

目前我基本上过滤数据集n次并将每个结果保存到单独的文件中。我宁愿有一个更好,更多变的方式。此外,这似乎没有利用眨眼能力。

如果您需要更多信息,请与我们联系。

1 个答案:

答案 0 :(得分:1)

分割数据集的常用方法是在输入数据集上使用过滤器,如下所述:

Dataset split/demultiplex in Flink mailing list

据我所知,没有操作员可以按照你想要的方式完成拆分工作。如答案中所述,“开销应该是合理的。数据保持在同一节点上 过滤器可以非常轻巧。“