Spark - 有没有办法看到任务进度?

时间:2017-10-20 13:06:24

标签: mongodb apache-spark intellij-idea gradle

我有一个Spark任务,它应该通过连接器将结果DataFrame输出到MongoDB。

当我只通过DF的show方法输出结果时,任务运行得非常快(尽管在很大程度上取决于我正在显示的行数)。比如默认显示40秒()。

但是,当我只想使用DataFrame的count()方法计算行数时,它需要永远而且永远不会完成。我甚至不确定它是否真的在做某事。它只是停留在舞台上:

  

建筑物83%> :运行

当我尝试将结果输出到本地MongoDB时,也会发生同样的情况。我输出的集合保持空白。

我真的不明白为什么会这样。任务花费的时间太长,或者由于某种原因而被卡住了。

有没有办法追踪某个阶段是否真的发生了什么?

0 个答案:

没有答案