Mahout ClusterDump - 显示graphml输出时出现奇数结果

时间:2012-07-25 00:45:02

标签: cluster-computing visualization mahout k-means

我一直在使用XML和SOLR索引输入将Mahout用于k-means集群文本文档。

群集似乎有效,类似的文档确实被放在同一个k-means群集中,这很好。

但是,每当我使用ClusterDump(--outputFormat GRAPH_ML)显示graphml输出时,我会得到一个显示所有聚类的图,但每个元素显示在其父聚类的圆周周围,这意味着每个元素的半径大致相同。质心。

我期望这些元素分散在整个集群中,具体取决于它们之间的相似性(如Mahout示例中所示)。

有没有人见过与他们的Mahout k-means集群类似的东西?我试图自己深究这一点,但任何提示或建议都将是一个巨大的帮助。

非常感谢,

P Morris

1 个答案:

答案 0 :(得分:0)

请问您能解释一下如何通过mahout和kmeans算法成功地将solr索引输入聚类?

当我对.txt文件进行聚类时,BTW输出(clusters_dump)如下所示:

  

CL-0 {n = 0 c = [0:1.000,1:1.000,2:3.162,3:1.000,4:4.796,6:1.000,7:1.000,8:1.000,9:1.000,10 :1.000,11:1.000,12:4.690,14:1.000,15:11.446,16:4.359] r = []}

     

CL-1 {n = 0 c = [0:1.000,1:1.000,2:3.162,3:1.000,6:1.000,7:1.000,8:1.000,9:1.000,10:1.000,11 :1.000,14:1.000,15:11.446] r = []}

     

CL-2 {n = 0 c = [4:1.000,12:1.000,13:8.315,16:1.000] r = []}

因为我指定了多少个群组3。