应用错误收集

Mahout k-means聚类命令：面对堆空间问题

时间：2013-11-27 04:01:39

标签： cluster-analysis mahout heap-memory k-means

我正在尝试在仅包含数值的300MB数据集上使用mahout执行k-means聚类。但是在第二次迭代之后，我在k-means命令中耗尽了内存。为什么每次迭代后尺寸都会增加？我该如何解决这个问题？

1 个答案:

答案 0 :(得分：1)

不要将Mahout用于小型数据集。只是不要。

300 MB可轻松放入任何现代计算机的主存储器中。内存实现（可能会尝试ELKI）将轻松胜过Mahout ，因为它没有Map Reduce的开销。

Hadoop不是一个万能的解决方案。它是超大尺寸的解决方案，您没有超大尺寸的数据。

您是否有可能甚至不使用真正的群集，而是使用虚拟机？您可能分配的磁盘空间或内存太小，或者您的群集配置不当。