同一设置的Weka聚类结果不同

时间:2018-07-26 15:25:42

标签: cluster-analysis weka data-mining arff

我正在使用Weka对某些数据进行聚类,并且遇到了一个非常奇怪的问题。当我在数据集上使用常规的“集群”工具时,我得到的结果是

Cluster 1: 87 instances
Cluster 2: 88 instances
Cluster 3: 181 instances

这是我从数据中得到的期望值,因此我认为这是一个很好的结果。但是,我想将此群集添加为一个类,并将其另存为新的.arff文件,因此我尝试使用Weka提供的“添加群集”过滤器。现在,在此过滤器中,我选择相同的群集器(此实验中为EM),并确保所有设置相同(甚至种子编号)。当我应用此方法时,我会得到

更糟糕的结果
Cluster 1: 87 instances
Cluster 2: 43 instances
Cluster 3: 226 instances

这显然与以前不同,但是我不知道为什么。我已经仔细检查了所有设置,以确保它们相同,因此,我很确定这不是此结果。另外,在this问题中,Zannjaminderson回答他有相同问题的答案,因此可能不是我(我会评论看他如何/是否解决了该问题,但是我没有50个代表)。

我认为可能会影响结果的一件事是对集群进行了什么训练。在原始群集中,我使用了整个训练集,但对于“添加群集”群集,我认为它没有指定要在其上进行训练的内容,因此这可能是错误的根源。最终,我的问题是:为什么会出现这种差异?我该怎么做才能制止这种差异?

0 个答案:

没有答案