从scipy病房群集中获取所有嵌套的群集级别层次结构分配

时间:2019-07-16 19:07:19

标签: python machine-learning scikit-learn nlp hierarchical-clustering

如果答案很明显,我事先表示歉意。我正在尝试在各自的Tfidf向量上使用分层病房聚类对文本文档进行分组,以加快查询文档的速度。我可以使用fcluster检索叶子的簇。我多么希望能够检索每个文档所属层次结构中的哪些父群集。任何提示将不胜感激。

在不清楚的情况下我正在寻找的示例是,如果我正在聚类动物,我想知道老虎是猫层次聚类的一部分,而父层次如哺乳动物和动物一样。

tfidf_matrix = tfidf_vectorizer.fit_transform(data) 

from sklearn.metrics.pairwise import cosine_similarity
dist = 1 - cosine_similarity(tfidf_matrix)

from scipy.cluster.hierarchy import ward, dendrogram, fcluster

linkage_matrix = ward(dist) 

#Lowest level clustering
clusters = fcluster(Z = linkage_matrix,t = 10, criterion='maxclust')

0 个答案:

没有答案