应用错误收集

时间：2013-01-15 01:40:13

标签： hadoop cpu cluster-analysis mahout

我使用mahout进行文本聚类

我的PC设备和软件位于

之下

服务器：
CPU：Intel Xeon E5-2620 2GHz，Ram：64GB

软件：
关于VirtualBox的ubuntu-12.4.1 Hadoop的1.0.4，象夫-0.7

我使用冠层算法来聚类80000 txt。但它运行了很长时间，只需要两三个星期就完成它，但我发现CPU利用率只有20％以下。

但我仍然不知道如何加速它，另一方面，是一些参数设置我失去了？或者服务器运行此作业的功能不强？

答案 0 :(得分：0)

Hadoop和Mahout适用于多台计算机。在单个主机上，针对此类操作优化的软件可能会更快。

Hadoop（和Mahout）管理的数据太大，无法容纳到单个计算机内存中。这要求数据存储在文件中，并通过网络传输到其他主机。

现在，如果你采用这种方法 - 反复编写中间结果 - 而不需要这样做，你当然会比你在内存中所做的一切都要慢。

由于你的CPU没有得到充分利用，你可能会猜到其他地方肯定存在瓶颈。看看你的磁盘IO。这可能是您目前的限制因素。