Spark集群仅使用master

时间:2014-11-19 21:50:49

标签: apache-spark

我有一个Spark 1.1.0群集,其中有三台不同功率的机器。当我运行start-all.sh脚本并检查UI时,我已经列出了所有从站和主站。列出每个工作者(它们具有不同的核心数),正确列出核心数,但使用零的通知。

cores
4 (0 Used)
2 (0 Used)
8 (8 Used)

Ssh已经建立并正常工作,hadoop似乎也很好。 8核心机器是主机,因此任何提交的作业都只在那里运行。我看到它在Web UI中执行,但其他工作人员从未得到过工作。

2 个答案:

答案 0 :(得分:0)

这里可能发生的是Total_Input_File_Size可能小于MAX_SPLIT_SIZE。因此,只有一个映射器正在运行,只能在主站上执行。

生成的映射器数量为Total_Input_File_Size / MAX_SPLIT_SIZE。所以,如果你给了一个小文件,试着给一个大的输入文件或降低max_split_size的值。

如果问题出在其他原因,请告诉我。

答案 1 :(得分:0)

您是否在--deploy-mode cluster命令中设置了spark-submit

如果您清空此选项,则该应用程序将不会转到其他工作人员。