Spark:一个任务永远不会返回

时间:2016-06-24 21:12:57

标签: scala apache-spark

我正在运行一个Spark流程,其中所有任务已经成功完成,除了现在单独运行数小时的任务。使用htop我可以看到cpu在旋转,但我觉得它没有做任何事情。

如何让这个过程完成或至少发现任务正在做什么?

1 个答案:

答案 0 :(得分:0)

简而言之:这在Spark中经常发生。看看Spark task duration difference可能涉及的情况:数据偏差,hdfs问题,以及......似乎恰好发生了。

更新对OP的回复

reliable关于:作业是否会在某些时候提供正确答案 - 一个火花非常可靠。

reliable在处理间隔的SLA意义上 - 这是一个问题。在独立,纱线甚至是mesos调度程序上运行的许多集群中都观察到了处理的偏差。对不起,我没有更好的消息。