群集上运行的执行程序很少

时间:2015-05-08 18:48:35

标签: apache-spark pyspark

我有一个cdh5的实验室环境,有6个节点 - 节点[1-6],node7作为nameNode。 节点[1-5]:8gb ram,2个核心 node [6]:32gb ram,8个核心 我是新手,我试图简单地计算数据中的行数。我已经将数据上传到hdfs(5.3GB)。 当我提交我的火花作业时,它只运行2个执行器,我可以看到它将任务分成161个任务(目录中有161个文件)。

在代码中,我正在读取所有文件并对它们进行计数。

data_raw = sc.textFile(path) 
print data_raw.count()

在CLI上:spark-submit --master yarn-client file_name.py --num-executors 6 --executor-cores 1

它应该运行6个执行程序,并在其上运行1个任务。但我只看到2个执行器正在运行。我无法找出原因。

非常感谢任何帮助。

2 个答案:

答案 0 :(得分:1)

提交工作的正确方法是: spark-submit --num-executors 6 --executor-cores 1 --master yarn-client file_name.py 现在它显示了所有其他执行者。

答案 1 :(得分:0)

我怀疑只有2个节点正在运行spark。去cloudera经理 - >集群 - > spark - >实例确认。