ELKI GUI没有用于分层聚类的聚类结果

时间:2016-07-29 12:01:35

标签: cluster-analysis elki

我是ELKI的新手,我需要对我已经在Weka中测试和聚类的数据集进行一些基本的聚类。我正在使用" GUI版本"我读了教程分析"鼠标" ELKI网站上的数据集http://elki.dbs.ifi.lmu.de/wiki/Tutorial#Analyzingthemousedataset

我使用EM聚集了我的数据集并成功可视化并输出结果(从教程我刚刚更改了参数 resultHandler:ResultWriter )。我在文件夹中得到的结果是:cluster.txt,cluster-evaluation.txt和settings.txt。

我对分层算法(SLINK,CLINK等)的输出结果有疑问。我得到的输出只是settings.txt,但我需要cluster.txt。

我需要更改其他一些参数,因为在日志视图中没有错误?

1 个答案:

答案 0 :(得分:1)

要从层次聚类结果中获取分区,还需要指定聚类提取方法:

-algorithm clustering.hierarchical.extraction.HDBSCANHierarchyExtraction
-algorithm CLINK
-hdbscan.minclsize 50

请注意,我们现在有两个 -algorithm参数,订单非常重要。提取算法有一个"嵌套"算法调用实际的层次聚类。

CLINK clustering result

从长远来看,我们希望转向基于操作员的方法(特别是对于GUI)。对于命令行,嵌套调用更安全,因为您无法在不运行分层聚类的情况下提取。

对于CLINK,群集质量通常不太好(它还依赖于顺序,因此对数据进行混洗并多次运行会产生不同的结果)。我也试着给AGNES或Anderberg一个完整的联系; AGNES总是O(n ^ 3),Anderberg通常在O(n ^ 2)(只有最坏的情况是O(n ^ 3))并且两者都产生更好的结果(除了绑定之外,它们预计产生相同的结果距离,CLINK是不同的):

Complete-Link clustering with Anderberg algorithm