标签: apache-spark
我们运行一个Spark 1.6.1应用程序。 在某些时候,我看不到更多的工作被提交。即使有可用的核心,也没有活动的核心,并且驱动程序stdout / stderr不打印任何内容。 这种情况持续了几分钟,直到它神奇地提交了新作业为止,Spark UI会显示这种情况,并将核心分配给任务。
火花在做什么? 我以为可能是DAG一代,但这似乎取决于输入数据的大小。
编辑
设法解决了这个问题。编写代码的人使用了传递df的foldleft,导致df在驱动程序中转换。