我一直在开发一个项目,我们使用spark-sql作为分析平台,目前我在加入两个数据框时面临问题df1
& df2
df1
有25000条记录
df2
有127000条记录
当我在spark-dataframe中加入这两个表时,加入
会花费大量时间val df_join = df1.join(df2,df2(“col1”)=== DF1( “COL1”))。滴(DF1( “COL2”))
我检查了Spark-UI的状态,它显示了一些令人惊讶的数字 并且输入大小/记录越来越奇怪
请让我知道为什么以及如何大幅增加输入大小以及如何调整我的火花作业
附有群集的屏幕截图
在纱线上运行的3节点集群
6 gb为司机
分配执行程序5 gb,每个执行程序2核