python - 使用LDA进行降维/聚类

我目前正面临文本挖掘问题，我的目标是识别短文本语料库中的聚类。这个想法是，这些集群代表某种技术/领域特定的内容，各个集群的所有成员都有共同的内容。群集的最终评估必须基于基于领域知识的持久性。

我通过一系列不同的方法来完成自己的工作。使用lda进行主题建模似乎是一个很好的开始。所以我的每个文件都是通过不同主题的混合来表示的（这些主题是基于单个单词或n_grams的连贯的偶然性）

我的第一个想法是使用生成的主题作为群集/组来分组我的文档。但是单个文档可以包含不同的主题，因此我不确定这是一个好主意。此外，由于LDA没有使用距离测量来计算它的主题，我缺乏某种度量标准来评估我的基于lda的集群。由于这个事实，我错过了一个特定的基本事实，我必然会遇到一些方法，这些方法并不局限于给定的基本事实。我使用了轮廓分数来评估我的群集，但是虽然这个度量基于距离，但lda不是。我不确定它是否真的有意义。

我的第二个想法是使用lda结果作为降维的预处理步骤。在这些新的输入向量上，我可以应用基于距离的聚类方法，如凝聚聚类，kmeans，dbscan。

我还发现了一些帖子和论文，指出了自组织地图来解决这类问题。与上述方法相比，这种方法是否值得遵循？

将lda主题用作群集或预处理步骤是否合理？什么是评估像lda这样的非距离方法的指标？还有其他方法需要考虑吗？

使用LDA进行降维/聚类

0 个答案: