不确定mahout产生聚类的方式

时间:2013-08-02 17:57:24

标签: cluster-analysis mahout

所以我想弄清楚如何解释/分析我的聚类输出。我有50个文件夹,分别叫cluster-0,clusters-1,clusters-2等等。这是因为我在命令中说'-k 50'。我认为这些文件夹每个都包含一个群集,但现在我不确定。

使用' - help'kmeans说'-cl'开关将:“如果存在,则在迭代发生后运行聚类。”

那么,这是否意味着您需要使用'-cl'来实现群集?

如果未使用“-cl”,则所有这五十个文件夹只是k-means算法输出的迭代,并且它不会产生实际具有的输出。

每个文件夹中是否包含50个集群,最后一个是最精细,最精确的集群?

1 个答案:

答案 0 :(得分:2)

关于Mahout Kmeans生成的文件夹结构:

/ clusters - 包含群集的初始质心,根据这些点为每个单独的数据点找到距离度量。

/ output / clusterPoints - 包含sequenceFile,它具有集群ID和用于以(key,value)格式进行集群的数据。

/ output / clusters - * - 每个文件夹都包含有关每次迭代的新计算的集群质心的数据。

/ output / clusters - * - final - 包含最终的群集详细信息 这是我拥有的东西。

  VL-1123{n=615 c=[0.655, 0.175, -1.042] r=[0.254, 0.086, 0.271]}
  VL-376{n=1607 c=[-0.068, 0.184, 0.787] r=[0.152, 0.020, 0.113]}
  VL-3492{n=375 c=[0.616, 0.111, 0.803] r=[0.289, 0.068, 0.227]}
  VL-347{n=507 c=[-0.496, 0.166, 0.574] r=[0.169, 0.078, 0.196]}
  VL-992{n=595 c=[0.154, 0.267, -0.394] r=[0.212, 0.083, 0.282]}
  VL-2468{n=189 c=[-0.696, -0.008, -0.494] r=[0.247, 0.213, 0.372]}

这里我有6个集群,所以它给出了

ClusterID(1123),群集中的记录数(n = 615),群集质心(c)和半径(r)

此外,VL表示集群已经融合,这是一件好事。 希望它有所帮助!!