应用错误收集

我应该尝试最小化与Spark Dataframe API的连接吗？

时间：2016-09-08 09:28:36

标签： apache-spark spark-dataframe

我正在使用Spark 1.5.1。使用DataFrame API。

假设有4个DF（A，B，C，D）作为输入，我需要计算3列的输出DF。第1列计算使用A，B，C 第2列计算使用A，B，D 第3列计算使用B，C

我有2个解决方案：

避免将A，B，C，D连接在一起
将A，B，C，D连接在一起

1.我会写更多的代码，但我希望性能提升（除非催化剂能比我更好地完成工作）。

什么是最佳选择？

0 个答案:

没有答案