需要提高spark-sql连接的性能

时间:2016-09-27 20:35:52

标签: hadoop apache-spark apache-spark-sql spark-dataframe bigdata

我一直在开发一个项目,我们使用spark-sql作为分析平台,目前我在加入两个数据框时面临问题df1& df2

df1有25000条记录 df2有127000条记录

当我在spark-dataframe中加入这两个表时,加入

会花费大量时间
  

val df_join = df1.join(df2,df2(“col1”)===   DF1( “COL1”))。滴(DF1( “COL2”))

我检查了Spark-UI的状态,它显示了一些令人惊讶的数字 并且输入大小/记录越来越奇怪

请让我知道为什么以及如何大幅增加输入大小以及如何调整我的火花作业

附有群集的屏幕截图 在纱线上运行的3节点集群
6 gb为司机 分配执行程序5 gb,每个执行程序2核

enter image description here

enter image description here

工作状态超过30分钟后,输入大小已增加到近1000GB enter image description here

0 个答案:

没有答案