使用基于字符串的聚合函数时,为什么使用基于排序的聚合而不是基于哈希的聚合

时间:2021-07-19 13:03:25

标签: apache-spark apache-spark-sql spark-streaming spark-structured-streaming

据我所知,只有在聚合函数中使用可变数据类型时,spark才会选择hash聚合。但是随着 spark 2.2 基于对象的聚合被引入,但我仍然看到选择了基于排序的聚合。

  1. 为什么不使用基于对象的聚合?
  2. 使用这种可变与不可变数据类型的逻辑来选择一种或另一种的背后的原因是什么(我无法理解可变性在两种算法中的重要性)

0 个答案:

没有答案