我有一个Spark任务,它应该通过连接器将结果DataFrame输出到MongoDB。
当我只通过DF的show方法输出结果时,任务运行得非常快(尽管在很大程度上取决于我正在显示的行数)。比如默认显示40秒()。
但是,当我只想使用DataFrame的count()方法计算行数时,它需要永远而且永远不会完成。我甚至不确定它是否真的在做某事。它只是停留在舞台上:
建筑物83%> :运行
当我尝试将结果输出到本地MongoDB时,也会发生同样的情况。我输出的集合保持空白。
我真的不明白为什么会这样。任务花费的时间太长,或者由于某种原因而被卡住了。
有没有办法追踪某个阶段是否真的发生了什么?