在sparkAggregator中剩下多少个工作/阶段

时间:2017-10-27 11:34:43

标签: python apache-spark pyspark svd

我在45GB数据csv上运行svd函数,其中包含8.9M行。

因为我的工作正在运行,所以 8.9小时

从主群集仪表板的端口8080开始,以下是应用状态。

| Cores | Memory per Executor| State | Duration |
| 480   | 15.0 GB | RUNNING | 8.9 h |

现在从端口4040的作业门户页面,我得到以下工作:

|Job Id | Description | Submitted | Duration | Stages: Succeeded/Total | Tasks (for all stages): Succeeded/Total |

| 1204 | treeAggregate at RowMatrix.scala:93 | xxx | 26 s | 2/2 | 501/501
| 1203 | treeAggregate at RowMatrix.scala:93 | xxx | 26 s | 2/2 | 501/501
....
....
| 14 | treeAggregate at RowMatrix.scala:93 | xxx | 26 s | 2/2 | 501/501

同样来自spark-submit的日志(我已将其限制为WARN)我在日志中获得以下内容:

[Stage 2377:===================================================>(478 + 2) / 480]

我正在运行的函数是RowMatrix computeSvd函数,所以我的问题是我想估计完成整个过程的剩余总时间? 我知道每个树的积聚工作都需要26秒,但我不知道还有多少工作可以完成这个过程?

0 个答案:

没有答案