我想对文本数据执行软聚类,因此我正在使用高斯混合模型,以便每个文本都可以属于多个聚类。
我使用tfidf将文本转换为列,然后执行LSA进行降维。
我在LSA输出上执行了GMM。
但是,当我使用predict_proba(X)函数时,我并没有使用高斯混合模型进行软聚类,每个文档仅分配给一个聚类,理想情况下应该给出多个聚类的概率。
from sklearn.mixture import GaussianMixture
gmm = GaussianMixture(n_components=22,covariance_type='full',n_init=10,random_state=42).fit(X)
labels = gmm.predict(X)
Gaussian=pd.DataFrame(gmm.predict_proba(X))
我希望输出是多个群集中的概率拆分。您能否帮助我理解原因