Question

我有一个cdh5的实验室环境，有6个节点 - 节点[1-6]，node7作为nameNode。节点[1-5]：8gb ram，2个核心 node [6]：32gb ram，8个核心我是新手，我试图简单地计算数据中的行数。我已经将数据上传到hdfs（5.3GB）。当我提交我的火花作业时，它只运行2个执行器，我可以看到它将任务分成161个任务（目录中有161个文件）。

在代码中，我正在读取所有文件并对它们进行计数。

data_raw = sc.textFile(path) 
print data_raw.count()

在CLI上：spark-submit --master yarn-client file_name.py --num-executors 6 --executor-cores 1

它应该运行6个执行程序，并在其上运行1个任务。但我只看到2个执行器正在运行。我无法找出原因。

非常感谢任何帮助。

Answer 1

提交工作的正确方法是： spark-submit --num-executors 6 --executor-cores 1 --master yarn-client file_name.py 现在它显示了所有其他执行者。

Answer 2

我怀疑只有2个节点正在运行spark。去cloudera经理 - ＆gt;集群 - ＆gt; spark - ＆gt;实例确认。

群集上运行的执行程序很少

2 个答案: