执行者执行的任务与总任务不匹配

时间:2018-04-12 20:37:33

标签: apache-spark

我正在运行一个带有~400GB数据的spark应用程序。如下图所示,框架创建了27072个任务,但是只执行了10247个任务。

因此,在Spark UI上,它显示为10247/27072(没有失败的任务,只是没有执行任何任务)。而且,即使不执行所有任务,工作似乎也能产生正确的输出。

任何人都可以帮助我理解这种有线行为。出于某种原因,只有当我处理400GB数据时才会发生这种情况。我用原始数据的子集运行作业。我没有看到这种行为。

enter image description here

0 个答案:

没有答案