分层聚类中的阈值

时间:2014-04-23 11:18:54

标签: python machine-learning cluster-analysis scikit-learn hierarchical-clustering

我不熟悉群集并在聚类推文上做一些小项目,我使用TF-IDF然后使用层次聚类。我对为层次聚类设置阈值感到困惑。它的价值应该是什么以及如何决定它? 我使用python scikit模块进行实现。

2 个答案:

答案 0 :(得分:1)

我假设您正在讨论选择要从层次聚类算法中提取的聚类数量。有几种方法可以做到这一点,维基百科有一篇很好的文章来讨论它的一些理论:http://en.wikipedia.org/wiki/Determining_the_number_of_clusters_in_a_data_set

对于实际示例,请看一下这个问题:Tutorial for scipy.cluster.hierarchy

答案 1 :(得分:1)

虽然有几种方法可以帮助终止层次聚类(或一般的聚类),但是没有最好的通用方法可以做到这一点。这源于这样一个事实,即没有任意数据的“正确”聚类。相反,“正确性”非常适用于域和应用程序。

因此,虽然您可以尝试不同的方法(例如,肘部或其他方法),但他们将依次拥有自己的参数,您必须“调整”以获得您认为“正确”的聚类。这段视频可能对你有所帮助(虽然它主要涉及k-means,概念扩展到其他聚类方法) - https://www.youtube.com/watch?v=3JPGv0XC6AE