标签: scala apache-spark
我有一个输入 A ,我将其转换为整个群集中的rdd X 。
我对它执行某些操作。
然后我在输出rdd上做.repartition(1)。
.repartition(1)
我的输出rdd是否与输入 A 的顺序相同。
火花会自动处理吗?如果是,那怎么办?
答案 0 :(得分:1)
文档并不保证会保留订单,因此您可以认为订单不会。如果您查看实现,您会发现它确实不会(除非您的原始RDD由于某种原因已经有1个分区):coalesce(shuffle = true)调用vsprintf,其中1} p>
coalesce(shuffle = true)
vsprintf
binary searching