我们如何在weka中使用聚类结果?

时间:2015-07-10 13:25:15

标签: weka

我正在使用Weka进行实习,但我对数据挖掘知之甚少。那么,也许有人知道如何在我的数据集上应用以下结果来获取群集的所有数据?我现在使用的方法是计算我的属性和每个簇的平均值之间的距离,然后我用最近的值对它们进行分类。但这种方法对我来说太粗糙了。

=== Run information ===

Scheme:weka.clusterers.EM -I 100 -N -1 -M 1.0E-6 -S 100
Relation:     wcet_cluster6 - Copie-weka.filters.unsupervised.attribute.Remove-R1-3,5-weka.filters.unsupervised.attribute.Remove-R5-12
Instances:    467
Attributes:   4
              max
              alt
              stmt
              bb
Test mode:evaluate on training data

=== Model and evaluation on training set ===

EM

Number of clusters selected by cross validation: 6


             Cluster
Attribute          0        1        2        3        4        5
              (0.28)   (0.11)   (0.25)   (0.16)   (0.04)   (0.17)
==================================================================
max
  mean         9.0148  10.9112  11.2826  10.4329  11.2039  10.0546
  std. dev.    1.8418   2.7775   3.0263   2.5743   2.2014   2.4614

alt
  mean         0.0003  19.6467   0.4867   2.4565   44.191   8.0635
  std. dev.    0.0175   5.7685   0.5034   1.3647  10.4761   3.3021

stmt
  mean         0.7295  77.0348   3.2439  12.3971 140.9367  33.9686
  std. dev.    1.0174  21.5897   2.3642   5.1584  34.8366  11.5868

bb
  mean         0.4362  53.9947   1.4895   7.2547 114.7113  22.2687
  std. dev.    0.5153  13.1614   0.9276   3.5122  28.0919   7.6968



Time taken to build model (full training data) : 4.24 seconds

=== Model and evaluation on training set ===

Clustered Instances

0      163 ( 35%)
1       50 ( 11%)
2       85 ( 18%)
3       73 ( 16%)
4       18 (  4%)
5       78 ( 17%)


Log likelihood: -9.09081

感谢您的帮助!!

1 个答案:

答案 0 :(得分:1)

我认为没有人可以真正回答这个问题。一些提示从我的头顶。

您已使用EM clustering algorithm,请参阅维基百科页面上的动画gif。来自Weka的文档概要:

  

“EM为每个实例分配一个概率分布   表示它属于每个集群的概率。 “

这个复杂的输出真的是你想要的吗?  它还为您选择了许多聚类(除非您约束该数字)。

在weka 3.7中,您可以使用“预处理”对话框中的无监督属性过滤器“ClusterMembership”将数据集替换为群集分配的结果。但是,您需要选择一个引用属性。默认情况下,它会选择最后一个。这会产生难以解释的输出。