用马尔可夫聚类算法选择参数

时间:2014-03-07 11:00:34

标签: data-mining cluster-analysis mcl

我正在使用mcl进行群集。我试图通过调整膨胀参数I和我介绍的其他几个参数来“优化”聚类与质量得分。

我对此优化有疑问:

1)如果我错了,请纠正我:当我们尝试预测新输入的类时,使用Cross validation。因此,当所有输入都已知并且我们只是尝试重新组合它们时,这个概念在聚类的背景下是没有意义的

2)我打算用不同的参数集运行实验,然后选择那些能给我最好结果的实验​​。但是,我read about clm close并且可以使用层次聚类并通过树来查找最佳参数。我不熟悉层次聚类,但是这种方法如何仅仅测试不同的参数呢?

1 个答案:

答案 0 :(得分:1)

至于(1)我同意。至于(2),这是一个非常专业的评论,在开始一般探索性(聚类)分析时不需要考虑。

但是关于(1)的说明。如果您的数据已经被分类(每个节点都带有标签),那么您可以将此分类视为聚类,并使用诸如信息变化或分割/连接距离等标准来查看数据聚类与分类的匹配程度。这在某种特定数据集可用但不适用于其他数据集的情况下非常有用。然后值得注意的是,一致性 exactness 更重要。也就是说,数据聚类可以是分类的(近)超聚类或子聚类,并且在这方面是一致的(参见https://stats.stackexchange.com/questions/24961/comparing-clusterings-rand-index-vs-variation-of-information)。