我正在尝试使用数据执行kmeans算法。运行时必须传递的选项需要初始集群的路径。任何人都可以告诉我,即使在启动算法之前我们如何才能拥有初始集群?
bin/mahout kmeans \
-i <input vectors directory> \
-c <input clusters directory> \
-o <output working directory> \
-k <optional number of initial clusters to sample from input vectors> \
-dm <DistanceMeasure> \
-x <maximum number of iterations> \
-cd <optional convergence delta. Default is 0.5> \
-ow <overwrite output directory if present>
-cl <run input vector clustering after computing Canopies>
-xm <execution method: sequential or mapreduce>
答案 0 :(得分:0)
A)Mahout是 slooooow 。如果您的数据适合主存储器,请使用其他工具,如ELKI。到目前为止,他们的表现超过了Mahout。如果您的数据不适合主内存:您确定k-means对您的数据有任何意义吗?进行无法解决问题的计算是没有意义的。从样本开始首先检查它是否有效,然后按比例放大。 Mahout是最后的选择:如果您绝对需要计算所有数据,并且其他一切都失败了,那么请使用Mahout。
B)阅读所有文档...... Mahout k-means文档中的下一行说:
注意:如果提供了
-k
参数,则-c
目录中的任何集群都将被覆盖,并且将从输入向量中采样-k
个随机点,以成为初始集群中心
换句话说:如果您知道初始群集中心,请通过-c
提供,并不设置-k
。否则一个空的-c
文件夹就可以了,如果你提供-k
,那就是要采样的集群中心的数量。