标签: apache-spark spark-dataframe
我正在使用Spark 1.5.1。使用DataFrame API。
假设有4个DF(A,B,C,D)作为输入,我需要计算3列的输出DF。 第1列计算使用A,B,C 第2列计算使用A,B,D 第3列计算使用B,C
我有2个解决方案:
1.我会写更多的代码,但我希望性能提升(除非催化剂能比我更好地完成工作)。
什么是最佳选择?