获取DBSCAN的集群文档

时间:2018-06-12 18:54:17

标签: machine-learning scikit-learn hierarchical-clustering dbscan

我尝试使用DBSCAN(来自scikit-learn)来聚类文本文档。我使用TF-IDF(sklearn中的TfidfVectorizer)来创建每个文档的功能。

但是,我还没有找到一种方法来获取(打印)由DBSCAN聚集的文档。

sklearn中的DBSCAN提供了一个名为“labels_”的属性,它允许我们获取群集组标签(例如,噪声为1,2,3,-1)。但是,我想获取由DBSCAN聚集的文档,而不是群集组标签。

要强调,我想知道属于每个群集的文档。 你能否建议如何做到这一点?

非常感谢!

1 个答案:

答案 0 :(得分:0)

使用标签选择文件。

X[labels_ == 1,:]

应该是群集1中的所有文档。