标签: apache-spark
Spark RDD有一个reduce的变种,称为treeReduce,它非常有效,因为它通过作为一个层次结构进行简化来提高并行度。
Spark数据集没有此变化。数据集的reduce实施是否已经足够有效,或者还有其他方法可以实现相同的行为?