我尝试使用DBSCAN(来自scikit-learn)来聚类文本文档。我使用TF-IDF(sklearn中的TfidfVectorizer)来创建每个文档的功能。
但是,我还没有找到一种方法来获取(打印)由DBSCAN聚集的文档。
sklearn中的DBSCAN提供了一个名为“labels_”的属性,它允许我们获取群集组标签(例如,噪声为1,2,3,-1)。但是,我想获取由DBSCAN聚集的文档,而不是群集组标签。
要强调,我想知道属于每个群集的文档。 你能否建议如何做到这一点?
非常感谢!
答案 0 :(得分:0)
使用标签选择文件。
X[labels_ == 1,:]
应该是群集1中的所有文档。