长时间运行火花提交工作

时间:2017-02-01 23:06:01

标签: scala apache-spark cosine-similarity spark-submit

我正在尝试使用spark submit来运行脚本

spark-submit -v \
--master yarn \
--num-executors 80 \
--driver-memory 10g \
--executor-memory 10g \
--executor-cores 5 \
--class cosineSimillarity jobs-1.0.jar

此脚本在60K记录上实现DIMSUM算法。

参考:https://github.com/eBay/Spark/blob/master/examples/src/main/scala/org/apache/spark/examples/mllib/CosineSimilarity.scala

不幸的是,即使3小时后这种情况仍在继续 我厌倦了1K数据并在2分钟内成功运行。

有人可以推荐对spark-submit params进行任何更改以使其更快吗?

1 个答案:

答案 0 :(得分:0)

你的spark-submit声明表明你至少有80 * 50 = 400个核心,对吧?

这意味着您应该确保至少有400个分区,以确保所有核心都正常工作(即每个核心至少要处理1个任务)。

查看您使用的代码,我认为您应该在sc.textFile()中读取文本文件时指定分区数,AFAIK默认为2(请参阅SparkContext.scala中的defaultMinPartitions)< / p>