标签: apache-spark
我正在使用Spark进行数据处理应用程序,需要将多个源(10-20)转换并组合在一起,从而生成一个文件。所有来源都有共同的加入密钥。这里最好的方法是通过将每个操作实现到镶木地板文件来逐个加入?或一次加入多个DF?我遇到了后者的性能问题,但想知道最佳实践是什么。
更新: 切换到Spark 2.0后,我注意到许多表上的连接现在更可靠,性能更高。