在mahout 0.8中解释StreamingKMeans的结果

时间:2013-06-30 08:03:44

标签: streaming cluster-analysis mahout k-means

我想要实现的只是找出给定群集中包含哪些输入点!? 我有一个个人数据集,其中包含一些手动分组为12个群集的文档。

我知道如何使用namedVector类和一个转储器(如clusterdumper)来解释kmenas导致mahout .7。在使用kmeans驱动程序进行群集后,创建了一个名为clusteredPoints的目录,其中包含群集结果,并且使用clusterDumper,您可以看到创建的群集以及每个群集中的点。在下面的链接有一个很好的解决方案: How to read Mahout clustering output

但是,正如我在标题中所提到的,我希望能够解释流式Kmeans结果,这是mahout的新功能.8。 在此功能中,它使用Centroid类来保存数据点和每个群集种子。 StreamingKMeans算法的生成结果只是一个序列文件,它由质心向量+每个簇的密钥和权重构成。在此输出中,没有输入数据点的信息来了解它们在集群之间的分布。但是,我不可能对集群的准确性有所了解。

顺便说一下,如何在集群输出中获取此信息?它没有实现或只是我没有找到并使用准备好的soulution?如何分析streamingKMeans的结果?

感谢。

0 个答案:

没有答案