Spark只使用集群中的少数节点

时间:2017-10-03 17:53:10

标签: apache-spark

我正在运行一个测试作业,它将5GB的压缩数据转储到mongoDB中。 我有1个主机和3个从机每个16 CPU,30GB RAM。在提交作业之后,似乎spark只为作业使用了2个从属节点,并为作业分配了32个核心,虽然我正在为我的工作使用动态分配。这个作业是该集群上唯一正在运行的作业,因为我预计大约47个要使用的核心(用于应用主纱线的1个核心)可以使用3个节点。我在我的集​​群中使用AWS EMR和纱线。

是否有一个特殊原因导致只有2个节点参与作业,并且使用动态分配仅为作业分配了32个核心。

enter image description here

1 个答案:

答案 0 :(得分:0)

zip个文件不可拆分。如果您不手动解压缩文件,则只能在一台计算机上加载。

任务总数(200)表明您正在使用SQL聚合。这可能是第一个实际重新分区的数据,根据配置,Spark可能更喜欢更好的位置和更少的占用节点。

我强烈建议在将文件用作Spark的输入之前解压缩文件。