Mahout - 向量集群的向量

时间:2013-01-27 07:27:50

标签: cluster-analysis mahout k-means

我使用:

运行K-Means
KMeansDriver.run(new Path("./bd.seq.file"), new Path(clustersLoc), new Path("output"),
            new EuclideanDistanceMeasure(), 0.001, 10, true, 0.5, false);

我的目标是知道每个原始载体属于哪个簇。 根据我的理解,这应该在output / clusteredPoints / part-m-00000中,但是这个文件看起来像一个空的(120字节)序列文件。

是什么给出了?

1 个答案:

答案 0 :(得分:1)

好吧,我终于得到了它(至少部分地)。它与KMeansDriver.run()第8个参数有关。 如果它的值为'0',则其行为与Mahout 0.5中的相同。 参数的名称是'clusterClassificationThreshold',其javadoc状态为:

  

是群集严格性/异常值删除参数。它的价值   应该在0和1之间。具有低于该值的pdf的矢量将   不被聚集。

对于像我这样的任何Mahout初学者,pdf是“概率密度函数”的首字母缩写。 我不确定我真的得到了这个参数是什么(谷歌搜索在这里没有帮助,javadocs是你将得到的所有),但我想这是因为它是一个机制的一部分,过滤Mahout开发人员选择的原始向量如果它不是'0',则禁用聚类点。