标签: apache-spark
我正在运行一个带有~400GB数据的spark应用程序。如下图所示,框架创建了27072个任务,但是只执行了10247个任务。
因此,在Spark UI上,它显示为10247/27072(没有失败的任务,只是没有执行任何任务)。而且,即使不执行所有任务,工作似乎也能产生正确的输出。
任何人都可以帮助我理解这种有线行为。出于某种原因,只有当我处理400GB数据时才会发生这种情况。我用原始数据的子集运行作业。我没有看到这种行为。