data-mining - 用马尔可夫聚类算法选择参数

我正在使用mcl进行群集。我试图通过调整膨胀参数I和我介绍的其他几个参数来“优化”聚类与质量得分。

我对此优化有疑问：

1）如果我错了，请纠正我：当我们尝试预测新输入的类时，使用Cross validation。因此，当所有输入都已知并且我们只是尝试重新组合它们时，这个概念在聚类的背景下是没有意义的

2）我打算用不同的参数集运行实验，然后选择那些能给我最好结果的实验。但是，我read about clm close并且可以使用层次聚类并通过树来查找最佳参数。我不熟悉层次聚类，但是这种方法如何仅仅测试不同的参数呢？

至于（1）我同意。至于（2），这是一个非常专业的评论，在开始一般探索性（聚类）分析时不需要考虑。

但是关于（1）的说明。如果您的数据已经被分类（每个节点都带有标签），那么您可以将此分类视为聚类，并使用诸如信息变化或分割/连接距离等标准来查看数据聚类与分类的匹配程度。这在某种特定数据集可用但不适用于其他数据集的情况下非常有用。然后值得注意的是，一致性比 exactness 更重要。也就是说，数据聚类可以是分类的（近）超聚类或子聚类，并且在这方面是一致的（参见https://stats.stackexchange.com/questions/24961/comparing-clusterings-rand-index-vs-variation-of-information）。

用马尔可夫聚类算法选择参数

1 个答案: