我是ELKI的新手,我需要对我已经在Weka中测试和聚类的数据集进行一些基本的聚类。我正在使用" GUI版本"我读了教程分析"鼠标" ELKI网站上的数据集:http://elki.dbs.ifi.lmu.de/wiki/Tutorial#Analyzingthemousedataset
我使用EM聚集了我的数据集并成功可视化并输出结果(从教程我刚刚更改了参数 resultHandler:ResultWriter )。我在文件夹中得到的结果是:cluster.txt,cluster-evaluation.txt和settings.txt。
我对分层算法(SLINK,CLINK等)的输出结果有疑问。我得到的输出只是settings.txt,但我需要cluster.txt。
我需要更改其他一些参数,因为在日志视图中没有错误?
答案 0 :(得分:1)
要从层次聚类结果中获取分区,还需要指定聚类提取方法:
-algorithm clustering.hierarchical.extraction.HDBSCANHierarchyExtraction
-algorithm CLINK
-hdbscan.minclsize 50
请注意,我们现在有两个 -algorithm
参数,订单非常重要。提取算法有一个"嵌套"算法调用实际的层次聚类。
从长远来看,我们希望转向基于操作员的方法(特别是对于GUI)。对于命令行,嵌套调用更安全,因为您无法在不运行分层聚类的情况下提取。
对于CLINK
,群集质量通常不太好(它还依赖于顺序,因此对数据进行混洗并多次运行会产生不同的结果)。我也试着给AGNES或Anderberg一个完整的联系; AGNES总是O(n ^ 3),Anderberg通常在O(n ^ 2)(只有最坏的情况是O(n ^ 3))并且两者都产生更好的结果(除了绑定之外,它们预计产生相同的结果距离,CLINK是不同的):