应用错误收集

我想要实现的只是找出给定群集中包含哪些输入点！？我有一个个人数据集，其中包含一些手动分组为12个群集的文档。

我知道如何使用namedVector类和一个转储器（如clusterdumper）来解释kmenas导致mahout .7。在使用kmeans驱动程序进行群集后，创建了一个名为clusteredPoints的目录，其中包含群集结果，并且使用clusterDumper，您可以看到创建的群集以及每个群集中的点。在下面的链接有一个很好的解决方案： How to read Mahout clustering output

但是，正如我在标题中所提到的，我希望能够解释流式Kmeans结果，这是mahout的新功能.8。在此功能中，它使用Centroid类来保存数据点和每个群集种子。 StreamingKMeans算法的生成结果只是一个序列文件，它由质心向量+每个簇的密钥和权重构成。在此输出中，没有输入数据点的信息来了解它们在集群之间的分布。但是，我不可能对集群的准确性有所了解。

顺便说一下，如何在集群输出中获取此信息？它没有实现或只是我没有找到并使用准备好的soulution？如何分析streamingKMeans的结果？

感谢。

在mahout 0.8中解释StreamingKMeans的结果

0 个答案: