我正在尝试使用spark submit来运行脚本
spark-submit -v \
--master yarn \
--num-executors 80 \
--driver-memory 10g \
--executor-memory 10g \
--executor-cores 5 \
--class cosineSimillarity jobs-1.0.jar
此脚本在60K记录上实现DIMSUM算法。
不幸的是,即使3小时后这种情况仍在继续 我厌倦了1K数据并在2分钟内成功运行。
有人可以推荐对spark-submit params进行任何更改以使其更快吗?
答案 0 :(得分:0)
你的spark-submit声明表明你至少有80 * 50 = 400个核心,对吧?
这意味着您应该确保至少有400个分区,以确保所有核心都正常工作(即每个核心至少要处理1个任务)。
查看您使用的代码,我认为您应该在sc.textFile()
中读取文本文件时指定分区数,AFAIK默认为2(请参阅SparkContext.scala中的defaultMinPartitions
)< / p>