标签: java join apache-spark inner-join spark-dataframe
我正在使用Spark 1.6在EMR上运行一个spark作业,如下所示,执行程序上有足够的内存可用。
即使有相当多的可用内存,我也会在下面看到shuffle溢出到磁盘的位置。我正在尝试做的是一个连接,我正在使用数据帧api加入三个数据集
我确实查看了文档,并且还使用了“spark.memory.fraction”和“spark.memory.storageFraction”,但这似乎没什么帮助。
任何帮助将不胜感激。感谢