我有一个包含以下配置的群集。
Distribution : CDH5,
Number nodes : 4,
RAM : 126GB,
Number of cores : 24 per node,
Harddisk : 5TB
我的输入文件大小为10GB。使用以下命令提交时需要花费大量时间(约20分钟)。
spark-submit --jars xxxx --files xxx,yyy --master yarn /home/me/python/ParseMain.py
在我的python代码中,我设置了以下内容:
sparkConf = SparkConf().setAppName("myapp")
sc = SparkContext(conf = sparkConf)
hContext = HiveContext(sc)
如何更改spark提交参数以便我可以获得更好的性能?
答案 0 :(得分:0)
您可以尝试的一些spark-submit选项
--driver-cores 4
--num-executors 4
--executor-cores 20
--executor-memory 5G
必须将CDH配置为具有足够的vCore和vMemory。否则,提交的作业将保持ACCEPTED
,它不会RUN
。