Weka ClusterMembership Filter仅提供1和0概率

时间:2018-07-31 14:05:58

标签: cluster-analysis weka probability arff

最近,我与Weka一起使用内置的EM群集器将数据群集到组中。但是,虽然群集本身可以正常工作,但是当我保存输出文件时,我注意到群集中的“概率”全为0和1。这使我感到怀疑,因为Weka不太可能以100%的置信度区分集群。因此,然后我要做的是生成的数据基本上是随机的并且是“不可集群的”,如果可以的话,在进行集群化之后,我再次发现输出概率都是1和0。

甚至更进一步,为确保群集器不会基于我完全忽略的某些功能进行群集,我制作了一个单独的实用程序来生成随机数据的TSNE图,并且可以肯定的是,它看起来是随机的,并且群集了EM群集器实际上没有任何意义,随机数据也应如此。

然后我的问题是:为什么对于完全随机数据,Weka的ClusterMembership功能为什么仅产生1和0的概率就可能出现在群集中?我是否遗漏了一些非常明显的内容?或者还有更深层次的问题?

Here是ClusterMembership文档,而here是我在SO上可以找到的最接近的相关问题,但似乎与我想要的相去甚远。任何建议/想法都受到欢迎,因为我可以想到为什么会发生的唯一原因是我的数据结构方式存在根本上的错误(这似乎不太可能,因为我在其他学习中使用了这些数据成功率高的问题),或者Weka的集群本身并不是那么好,尽管我希望事实并非如此,但从my previous question看来,这似乎是一个合理的原因。

更新:我设法使用以下简约的.arff文件复制了此问题:

@relation 'Test'

@attribute x numeric
@attribute y numeric

@data 
{0 1}
{1 1}
{}
{0 1,1 1}

使用ClusterMembership过滤器(2个集群)运行此命令,我再次发现概率全为1或0。请注意,这显然是没有意义的,因为有多种方法可以将该数据聚类为2个组,因此为聚类指定1的概率是不现实的。另外,我还要补充一点,我正在使用Weka 3.8.1。

0 个答案:

没有答案