Question

所以我想弄清楚如何解释/分析我的聚类输出。我有50个文件夹，分别叫cluster-0，clusters-1，clusters-2等等。这是因为我在命令中说'-k 50'。我认为这些文件夹每个都包含一个群集，但现在我不确定。

使用' - help'kmeans说'-cl'开关将：“如果存在，则在迭代发生后运行聚类。”

那么，这是否意味着您需要使用'-cl'来实现群集？

如果未使用“-cl”，则所有这五十个文件夹只是k-means算法输出的迭代，并且它不会产生实际具有簇的输出。

每个文件夹中是否包含50个集群，最后一个是最精细，最精确的集群？

Answer 1

关于Mahout Kmeans生成的文件夹结构：

/ clusters - 包含群集的初始质心，根据这些点为每个单独的数据点找到距离度量。

/ output / clusterPoints - 包含sequenceFile，它具有集群ID和用于以（key，value）格式进行集群的数据。

/ output / clusters - * - 每个文件夹都包含有关每次迭代的新计算的集群质心的数据。

/ output / clusters - * - final - 包含最终的群集详细信息这是我拥有的东西。

  VL-1123{n=615 c=[0.655, 0.175, -1.042] r=[0.254, 0.086, 0.271]}
  VL-376{n=1607 c=[-0.068, 0.184, 0.787] r=[0.152, 0.020, 0.113]}
  VL-3492{n=375 c=[0.616, 0.111, 0.803] r=[0.289, 0.068, 0.227]}
  VL-347{n=507 c=[-0.496, 0.166, 0.574] r=[0.169, 0.078, 0.196]}
  VL-992{n=595 c=[0.154, 0.267, -0.394] r=[0.212, 0.083, 0.282]}
  VL-2468{n=189 c=[-0.696, -0.008, -0.494] r=[0.247, 0.213, 0.372]}

这里我有6个集群，所以它给出了

ClusterID（1123），群集中的记录数（n = 615），群集质心（c）和半径（r）

此外，VL表示集群已经融合，这是一件好事。希望它有所帮助!!

不确定mahout产生聚类的方式

1 个答案: