Question

我尝试使用DBSCAN（来自scikit-learn）来聚类文本文档。我使用TF-IDF（sklearn中的TfidfVectorizer）来创建每个文档的功能。

但是，我还没有找到一种方法来获取（打印）由DBSCAN聚集的文档。

sklearn中的DBSCAN提供了一个名为“labels_”的属性，它允许我们获取群集组标签（例如，噪声为1,2,3，-1）。但是，我想获取由DBSCAN聚集的文档，而不是群集组标签。

要强调，我想知道属于每个群集的文档。你能否建议如何做到这一点？

非常感谢！

Answer 1

使用标签选择文件。

X[labels_ == 1,:]

应该是群集1中的所有文档。