Spark的排序是如何进行的?

时间:2016-05-30 22:16:14

标签: apache-spark

https://0x0fff.com/spark-architecture-shuffle/我知道Spark中默认的shuffling方式是排序混乱。然而,对于我来说,描述并不是一步一步的。它是如何工作的?

我的理解是每个映射器只写入一个AppendOnlyMap键是什么?),它是排序的(并且溢出 - 为什么溢出?)潜在的多个... 到底是什么? ...然后以某种方式编写了一些索引(究竟是什么用什么键?索引)文件。我认为最终的想法是所有那些排序和索引的文件都与这个Min Heap Merge一起带来,每个只减少一个大文件。

正如人们所看到的 - 有更多的整体(我不理解的东西)比瑞士奶酪(我明白的东西)......

0 个答案:

没有答案