我在gensim,fasttext,sklearn上检查了无监督分类,但是没有找到任何文档可以在不提及要识别的聚类数的情况下使用无监督学习对文本数据进行聚类
例如sklearn KMneans聚类
km = KMeans(n_clusters=true_k, init='k-means++', max_iter=100)
我必须提供n_clusters的地方。
就我而言,我有文本,应该自动识别其中的聚类数并将其聚类。任何参考文章或链接,不胜感激。
答案 0 :(得分:1)
DBSCAN 是一种基于密度的聚类方法,我们无需事先指定聚类数。
sklearn 实施:http://scikit-learn.org/stable/modules/generated/sklearn.cluster.DBSCAN.html
这是一个很好的教程,可以直观地了解DBSCAN:http://mccormickml.com/2016/11/08/dbscan-clustering/
我从以上教程中摘录了以下内容,这可能对您有用。
k均值要求指定簇数“ k”。 DBSCAN不需要,但是确实需要指定两个参数,这些参数会影响是否应该将两个附近的点链接到同一聚类中。
这两个参数分别是距离阈值ε(ε)和“ MinPts”(最小点数)。
还有其他方法(请遵循评论中给出的链接),但是, DBSCAN 是一种流行的选择。