运行mahout k意味着聚类命令而不将输入文件转换为向量

时间:2013-11-26 17:15:13

标签: vector cluster-analysis mahout k-means

我有一个数据集(300MB),我希望运行k表示使用Mahout进行聚类。数据采用csv的形式,仅包含数值。是否仍然需要以矢量化格式输入mahout k means命令的文件?如果没有,我如何直接在我的csv文件上运行k means命令而不将其转换为矢量格式?

1 个答案:

答案 0 :(得分:1)

如果您的数据是300 MB,答案是根本不要使用Mahout

当您的数据不再适合内存时,真的只能使用Mahout。 Map Reduce 昂贵,你只想在没有解决问题的情况下使用它。