Question

我正在尝试使用spark submit来运行脚本

spark-submit -v \
--master yarn \
--num-executors 80 \
--driver-memory 10g \
--executor-memory 10g \
--executor-cores 5 \
--class cosineSimillarity jobs-1.0.jar

此脚本在60K记录上实现DIMSUM算法。

参考：https://github.com/eBay/Spark/blob/master/examples/src/main/scala/org/apache/spark/examples/mllib/CosineSimilarity.scala

不幸的是，即使3小时后这种情况仍在继续我厌倦了1K数据并在2分钟内成功运行。

有人可以推荐对spark-submit params进行任何更改以使其更快吗？

Answer 1

你的spark-submit声明表明你至少有80 * 50 = 400个核心，对吧？

这意味着您应该确保至少有400个分区，以确保所有核心都正常工作（即每个核心至少要处理1个任务）。

查看您使用的代码，我认为您应该在sc.textFile()中读取文本文件时指定分区数，AFAIK默认为2（请参阅SparkContext.scala中的defaultMinPartitions）< / p>

长时间运行火花提交工作

1 个答案: