我使用:
运行K-MeansKMeansDriver.run(new Path("./bd.seq.file"), new Path(clustersLoc), new Path("output"),
new EuclideanDistanceMeasure(), 0.001, 10, true, 0.5, false);
我的目标是知道每个原始载体属于哪个簇。 根据我的理解,这应该在output / clusteredPoints / part-m-00000中,但是这个文件看起来像一个空的(120字节)序列文件。
是什么给出了?
答案 0 :(得分:1)
KMeansDriver.run()
第8个参数有关。
如果它的值为'0',则其行为与Mahout 0.5中的相同。
参数的名称是'clusterClassificationThreshold',其javadoc状态为:
是群集严格性/异常值删除参数。它的价值 应该在0和1之间。具有低于该值的pdf的矢量将 不被聚集。
对于像我这样的任何Mahout初学者,pdf是“概率密度函数”的首字母缩写。 我不确定我真的得到了这个参数是什么(谷歌搜索在这里没有帮助,javadocs是你将得到的所有),但我想这是因为它是一个机制的一部分,过滤Mahout开发人员选择的原始向量如果它不是'0',则禁用聚类点。