Question

我有一个Spark 1.1.0群集，其中有三台不同功率的机器。当我运行start-all.sh脚本并检查UI时，我已经列出了所有从站和主站。列出每个工作者（它们具有不同的核心数），正确列出核心数，但使用零的通知。

cores
4 (0 Used)
2 (0 Used)
8 (8 Used)

Ssh已经建立并正常工作，hadoop似乎也很好。 8核心机器是主机，因此任何提交的作业都只在那里运行。我看到它在Web UI中执行，但其他工作人员从未得到过工作。

Answer 1

这里可能发生的是Total_Input_File_Size可能小于MAX_SPLIT_SIZE。因此，只有一个映射器正在运行，只能在主站上执行。

生成的映射器数量为Total_Input_File_Size / MAX_SPLIT_SIZE。所以，如果你给了一个小文件，试着给一个大的输入文件或降低max_split_size的值。

如果问题出在其他原因，请告诉我。

Answer 2

您是否在--deploy-mode cluster命令中设置了spark-submit？

如果您清空此选项，则该应用程序将不会转到其他工作人员。