标签: apache-spark spark-dataframe
什么是计算Spark Dataframe的最佳方式?
1)我尝试过count会添加一个动作。但我不想添加额外的动作。
2)我在RDD上使用了累加器,要求数据帧需要转换为RDD,甚至累加器也不准确。
我想知道火花已经足够成熟,它没有任何其他方式。我认为必须有一些方法可以在不影响性能/运行时间的情况下进行计数。
答案 0 :(得分:1)
我认为除了累加器之外没有其他方法可以不添加动作。要使用累加器需要转换成rdd。