所以我想弄清楚如何解释/分析我的聚类输出。我有50个文件夹,分别叫cluster-0,clusters-1,clusters-2等等。这是因为我在命令中说'-k 50'。我认为这些文件夹每个都包含一个群集,但现在我不确定。
使用' - help'kmeans说'-cl'开关将:“如果存在,则在迭代发生后运行聚类。”
那么,这是否意味着您需要使用'-cl'来实现群集?
如果未使用“-cl”,则所有这五十个文件夹只是k-means算法输出的迭代,并且它不会产生实际具有簇的输出。
每个文件夹中是否包含50个集群,最后一个是最精细,最精确的集群?
答案 0 :(得分:2)
关于Mahout Kmeans生成的文件夹结构:
/ clusters - 包含群集的初始质心,根据这些点为每个单独的数据点找到距离度量。
/ output / clusterPoints - 包含sequenceFile,它具有集群ID和用于以(key,value)格式进行集群的数据。
/ output / clusters - * - 每个文件夹都包含有关每次迭代的新计算的集群质心的数据。
/ output / clusters - * - final - 包含最终的群集详细信息 这是我拥有的东西。
VL-1123{n=615 c=[0.655, 0.175, -1.042] r=[0.254, 0.086, 0.271]}
VL-376{n=1607 c=[-0.068, 0.184, 0.787] r=[0.152, 0.020, 0.113]}
VL-3492{n=375 c=[0.616, 0.111, 0.803] r=[0.289, 0.068, 0.227]}
VL-347{n=507 c=[-0.496, 0.166, 0.574] r=[0.169, 0.078, 0.196]}
VL-992{n=595 c=[0.154, 0.267, -0.394] r=[0.212, 0.083, 0.282]}
VL-2468{n=189 c=[-0.696, -0.008, -0.494] r=[0.247, 0.213, 0.372]}
这里我有6个集群,所以它给出了
ClusterID(1123),群集中的记录数(n = 615),群集质心(c)和半径(r)
此外,VL表示集群已经融合,这是一件好事。 希望它有所帮助!!