标签: performance apache-spark spark-dataframe aggregate-functions apache-spark-2.0
我正在尝试在Spark中编写一些性能敏感的代码,并想知道我是否应该为Dataframe上的汇总操作编写Aggregator或User-defined Aggregate Function(UDAF)。
我无法在任何地方找到任何数据,无论这些方法的速度有多快,以及您应该将哪些方法用于spark 2.0 +。