Question

我有一个包含以下配置的群集。

Distribution : CDH5,
Number nodes : 4,
RAM : 126GB,
Number of cores : 24 per node,
Harddisk : 5TB

我的输入文件大小为10GB。使用以下命令提交时需要花费大量时间（约20分钟）。

spark-submit --jars xxxx  --files xxx,yyy  --master yarn /home/me/python/ParseMain.py

在我的python代码中，我设置了以下内容：

sparkConf = SparkConf().setAppName("myapp")    
sc = SparkContext(conf = sparkConf)    
hContext = HiveContext(sc)

如何更改spark提交参数以便我可以获得更好的性能？

Answer 1

您可以尝试的一些spark-submit选项

--driver-cores 4
--num-executors 4
--executor-cores 20
--executor-memory 5G

必须将CDH配置为具有足够的vCore和vMemory。否则，提交的作业将保持ACCEPTED，它不会RUN。