标签: vector cluster-analysis mahout k-means
我有一个数据集(300MB),我希望运行k表示使用Mahout进行聚类。数据采用csv的形式,仅包含数值。是否仍然需要以矢量化格式输入mahout k means命令的文件?如果没有,我如何直接在我的csv文件上运行k means命令而不将其转换为矢量格式?
答案 0 :(得分:1)
如果您的数据是300 MB,答案是根本不要使用Mahout 。
当您的数据不再适合内存时,真的只能使用Mahout。 Map Reduce 昂贵,你只想在没有解决问题的情况下使用它。