我在45GB数据csv上运行svd函数,其中包含8.9M行。
因为我的工作正在运行,所以 8.9小时
从主群集仪表板的端口8080开始,以下是应用状态。
| Cores | Memory per Executor| State | Duration |
| 480 | 15.0 GB | RUNNING | 8.9 h |
现在从端口4040的作业门户页面,我得到以下工作:
|Job Id | Description | Submitted | Duration | Stages: Succeeded/Total | Tasks (for all stages): Succeeded/Total |
| 1204 | treeAggregate at RowMatrix.scala:93 | xxx | 26 s | 2/2 | 501/501
| 1203 | treeAggregate at RowMatrix.scala:93 | xxx | 26 s | 2/2 | 501/501
....
....
| 14 | treeAggregate at RowMatrix.scala:93 | xxx | 26 s | 2/2 | 501/501
同样来自spark-submit的日志(我已将其限制为WARN)我在日志中获得以下内容:
[Stage 2377:===================================================>(478 + 2) / 480]
我正在运行的函数是RowMatrix computeSvd函数,所以我的问题是我想估计完成整个过程的剩余总时间? 我知道每个树的积聚工作都需要26秒,但我不知道还有多少工作可以完成这个过程?