Spark ML管道的单任务问题

时间:2017-11-30 11:15:43

标签: apache-spark

我有一个有4个阶段的火花ML管道。我将数据集(从HDFS文件读取)传递到每个阶段。在转换方法的每个阶段,我对数据集执行foreach并调用REST服务,将结果填充到数据集并转到下一个阶段。最后在管道之外,我将结果保存到数据库,并将文件保存到HDFS。enter image description here

我将作业提交给纱线群集(4个节点)。我注意到,管道中的所有阶段都在一个任务中运行,主要是在集群中的一个节点上。我在spark提交中设置了6个执行器,5个内核和5gb RAM。我期望foreach将跨节点拆分数据集并并行运行,但我看到单个节点运行所有调用。

不确定是否需要进行任何重新分区或其他优化以利用群集。 HDFS中的文件大小约为600MB。

0 个答案:

没有答案