如何在4节点CDH群集中提交spark作业

时间:2016-10-06 07:39:31

标签: apache-spark pyspark bigdata

我有一个包含以下配置的群集。

Distribution : CDH5,
Number nodes : 4,
RAM : 126GB,
Number of cores : 24 per node,
Harddisk : 5TB

我的输入文件大小为10GB。使用以下命令提交时需要花费大量时间(约20分钟)。

spark-submit --jars xxxx  --files xxx,yyy  --master yarn /home/me/python/ParseMain.py

在我的python代码中,我设置了以下内容:

sparkConf = SparkConf().setAppName("myapp")    
sc = SparkContext(conf = sparkConf)    
hContext = HiveContext(sc)

如何更改spark提交参数以便我可以获得更好的性能?

1 个答案:

答案 0 :(得分:0)

您可以尝试的一些spark-submit选项

--driver-cores 4
--num-executors 4
--executor-cores 20
--executor-memory 5G

必须将CDH配置为具有足够的vCore和vMemory。否则,提交的作业将保持ACCEPTED,它不会RUN