我目前正面临文本挖掘问题,我的目标是识别短文本语料库中的聚类。 这个想法是,这些集群代表某种技术/领域特定的内容,各个集群的所有成员都有共同的内容。 群集的最终评估必须基于基于领域知识的持久性。
我通过一系列不同的方法来完成自己的工作。 使用lda进行主题建模似乎是一个很好的开始。 所以我的每个文件都是通过不同主题的混合来表示的(这些主题是基于单个单词或n_grams的连贯的偶然性)
我的第一个想法是使用生成的主题作为群集/组来分组我的文档。 但是单个文档可以包含不同的主题,因此我不确定这是一个好主意。 此外,由于LDA没有使用距离测量来计算它的主题,我缺乏某种度量标准来评估我的基于lda的集群。由于这个事实,我错过了一个特定的基本事实,我必然会遇到一些方法,这些方法并不局限于给定的基本事实。我使用了轮廓分数来评估我的群集,但是虽然这个度量基于距离,但lda不是。我不确定它是否真的有意义。
我的第二个想法是使用lda结果作为降维的预处理步骤。 在这些新的输入向量上,我可以应用基于距离的聚类方法,如凝聚聚类,kmeans,dbscan。
我还发现了一些帖子和论文,指出了自组织地图来解决这类问题。与上述方法相比,这种方法是否值得遵循?
将lda主题用作群集或预处理步骤是否合理? 什么是评估像lda这样的非距离方法的指标? 还有其他方法需要考虑吗?