我正在尝试将数百个文本文档聚类,以便每个聚类代表一个不同的主题。我不想使用主题建模(我知道我也可以做到),而是要遵循两步方法:
我知道我可以在步骤2中使用k-means,但我更喜欢使用软聚类算法,因为我的文档有时属于多个主题。因此,我想获得每个响应属于每个群集的概率。 我的嵌入有768个维,当实现软聚类算法(高斯混合模型)时,我意识到高维会引起问题。因此,我正在考虑使用降维技术(例如PCA)并将这些因素输入到聚类算法中。
但是,我对这种高维空间中的降维不是很熟悉,尤其是在NLP的环境中。任何人都可以在这里建议一个好的方法吗?
谢谢!
答案 0 :(得分:0)
我认为您应该将 UMAP 视为一种有效的暗淡。减少。 PCA 和 UMAP 都相对快速且易于使用。
UMAP 使用预定义的距离函数作为相似性度量。它试图保留低维空间中点之间的距离。这使得它非常适合 SentenceBERT 嵌入,因为该模型已内置 CosineLoss。