在以前的版本中,有一个名为 spark.shuffle.manage 的配置,用于确定Spark中的随机数算法的类型。从Spark 2.0开始,此配置将被删除。默认的shuffle算法是基于排序的。据我了解,只有满足所有要求时才会启用Tungsten shuffle。如何知道当前作业是使用原始的基于排序的shuffle还是Tungsten sort?
非常感谢。
答案 0 :(得分:2)
引用SortShuffleManager — The Default (And Only) Sort-Based Shuffle System:
SortShuffleManager是Spark中唯一一个短名为
sort
或tungsten-sort
的ShuffleManager。
换句话说,你无法使用任何其他ShuffleManager而是SortShuffleManager
(除非你使用spark.shuffle.manager
属性启用了一个)。