应用错误收集

时间：2016-04-30 02:33:52

标签： linux hadoop apache-spark linux-kernel apache-spark-mllib

我使用Spark中的MLIB库在大小为8G和700万行的数据上运行SVM算法。我在一个节点上以独立模式运行Spark。

我使用/ usr / bin / time -v来捕获有关作业的数据。我获得了峰值内存利用率和％CPU时间等。我获得的CPU利用率仅为6％。我正在监控TOP，同时程序运行一段时间，我可以看到超过100％几乎一直使用。我现在很困惑为什么/ usr / bin / time只显示6％？

更多细节 - 我的机器是16G，我运行的程序消耗13.88G。该程序在2.1小时内执行。

任何见解，任何人？

答案 0 :(得分：0)

我弄明白了这个问题。因此，usr / bin /时间显示（6％）占可用总CPU的百分比（在这种情况下为8个线程），而TOP为1个单线程显示为100％。

顺便说一下，如果它对任何人有帮助，那么只使用1个线程而不是所有8个线程的原因是我在SparkContext中提到了“local”而不是“local [*]”（sc = SparkContext（“local”， ...）。阅读更多相关信息HERE。