我正在尝试在仅包含数值的300MB数据集上使用mahout执行k-means聚类。但是在第二次迭代之后,我在k-means命令中耗尽了内存。为什么每次迭代后尺寸都会增加?我该如何解决这个问题?
答案 0 :(得分:1)
不要将Mahout用于小型数据集。只是不要。
300 MB可轻松放入任何现代计算机的主存储器中。内存实现(可能会尝试ELKI)将轻松胜过Mahout ,因为它没有Map Reduce的开销。
Hadoop不是一个万能的解决方案。它是超大尺寸的解决方案,您没有超大尺寸的数据。
您是否有可能甚至不使用真正的群集,而是使用虚拟机?您可能分配的磁盘空间或内存太小,或者您的群集配置不当。