火花处理数据改组吗?

时间:2016-09-16 09:06:59

标签: scala apache-spark

我有一个输入 A ,我将其转换为整个群集中的rdd X

我对它执行某些操作。

然后我在输出rdd上做.repartition(1)

我的输出rdd是否与输入 A 的顺序相同。

火花会自动处理吗?如果是,那怎么办?

1 个答案:

答案 0 :(得分:1)

文档并不保证会保留订单,因此您可以认为订单不会。如果您查看实现,您会发现它确实不会(除非您的原始RDD由于某种原因已经有1个分区):coalesce(shuffle = true)调用vsprintf,其中

  

binary searching