集群中的Mahout cpu利用率

时间:2013-01-15 01:40:13

标签: hadoop cpu cluster-analysis mahout

我使用mahout进行文本聚类

我的PC设备和软件位于

之下

服务器:
CPU:Intel Xeon E5-2620 2GHz,Ram:64GB

软件:
关于VirtualBox的ubuntu-12.4.1 Hadoop的1.0.4,象夫-0.7

我使用冠层算法来聚类80000 txt。但它运行了很长时间,只需要两三个星期就完成它,但我发现CPU利用率只有20%以下。

我发现有人也有这个问题, http://mail-archives.apache.org/mod_mbox/mahout-user/201212.mbox/%3C7959565186420075099@unknownmsgid%3E#archives

但我仍然不知道如何加速它,另一方面,是一些参数设置我失去了?或者服务器运行此作业的功能不强?

1 个答案:

答案 0 :(得分:0)

Hadoop和Mahout适用于多台计算机。在单个主机上,针对此类操作优化的软件可能会更快。

Hadoop(和Mahout)管理的数据太大,无法容纳到单个计算机内存中。这要求数据存储在文件中,并通过网络传输到其他主机。

现在,如果你采用这种方法 - 反复编写中间结果 - 而不需要这样做,你当然会比你在内存中所做的一切都要慢。

由于你的CPU没有得到充分利用,你可能会猜到其他地方肯定存在瓶颈。看看你的磁盘IO。这可能是您目前的限制因素。