/ usr / bin / time使用SPARK时对TOP的CPU利用率

时间:2016-04-30 02:33:52

标签: linux hadoop apache-spark linux-kernel apache-spark-mllib

我使用Spark中的MLIB库在大小为8G和700万行的数据上运行SVM算法。我在一个节点上以独立模式运行Spark。

我使用/ usr / bin / time -v来捕获有关作业的数据。我获得了峰值内存利用率和%CPU时间等。我获得的CPU利用率仅为6%。我正在监控TOP,同时程序运行一段时间,我可以看到超过100%几乎一直使用。我现在很困惑为什么/ usr / bin / time只显示6%?

更多细节 - 我的机器是16G,我运行的程序消耗13.88G。该程序在2.1小时内执行。

任何见解,任何人?

1 个答案:

答案 0 :(得分:0)

我弄明白了这个问题。因此,usr / bin /时间显示(6%)占可用总CPU的百分比(在这种情况下为8个线程),而TOP为1个单线程显示为100%。

顺便说一下,如果它对任何人有帮助,那么只使用1个线程而不是所有8个线程的原因是我在SparkContext中提到了“local”而不是“local [*]”(sc = SparkContext(“local”, ...)。阅读更多相关信息HERE