什么是计算火花Dataframe的最佳方法

时间:2017-01-04 21:59:08

标签: apache-spark spark-dataframe

什么是计算Spark Dataframe的最佳方式?

1)我尝试过count会添加一个动作。但我不想添加额外的动作。

2)我在RDD上使用了累加器,要求数据帧需要转换为RDD,甚至累加器也不准确。

我想知道火花已经足够成熟,它没有任何其他方式。我认为必须有一些方法可以在不影响性能/运行时间的情况下进行计数。

1 个答案:

答案 0 :(得分:1)

我认为除了累加器之外没有其他方法可以不添加动作。要使用累加器需要转换成rdd。

相关问题