Mahout k-means聚类命令:面对堆空间问题

时间:2013-11-27 04:01:39

标签: cluster-analysis mahout heap-memory k-means

我正在尝试在仅包含数值的300MB数据集上使用mahout执行k-means聚类。但是在第二次迭代之后,我在k-means命令中耗尽了内存。为什么每次迭代后尺寸都会增加?我该如何解决这个问题?

1 个答案:

答案 0 :(得分:1)

不要将Mahout用于小型数据集。只是不要。

300 MB可轻松放入任何现代计算机的主存储器中。内存实现(可能会尝试ELKI)将轻松胜过Mahout ,因为它没有Map Reduce的开销。

Hadoop不是一个万能的解决方案。它是超大尺寸的解决方案,您没有超大尺寸的数据。

您是否有可能甚至不使用真正的群集,而是使用虚拟机?您可能分配的磁盘空间或内存太小,或者您的群集配置不当。