Question

大家。我使用Spark和YARN进行分布式计算，有线问题是每次我的工作人员无法正常工作，有时只有1或2个节点工作，其他节点状态启动但似乎无法正常工作。我需要我的所有节点一起工作。

我只是想知道这可能因为我的计算任务太小了吗？因为我的目标是从HDFS中计算3-4GB的jsons。

我的任务提交命令是

./spark-submit --master yarn-client --supervise word.py

这里我们只能看到slave 3和主节点工作。这是我第一次提交

这是我的第二次提交工作，似乎只有奴隶1正在工作。有谁知道这个问题是什么？

Answer 1

更改将要解决的Worker_Instances。