主题建模和文档聚类之间有什么关系?

时间:2013-03-19 02:48:56

标签: cluster-analysis topic-modeling unsupervised-learning

主题建模可识别文档集中主题的分布,从而有效地识别集合中的集群。那么说主题建模是一种进行文档聚类的技术是对的吗?

2 个答案:

答案 0 :(得分:11)

主题与文档集群完全不同,毕竟,主题不是由文档组成的。

但是,这两种技术确实有关。我认为主题建模是决定文档类似程度的可行方法,因此是文档聚类的可行方法。

在将每个文档表示为主题分布(实际上是向量)时,主题建模技术将特征维度从出现(在语料库中)的不同单词的数量减少到主题的数量。文档主题分布之间的相似性可以使用余弦指标和许多其他指标来计算,这些指标反映了文档本身在其涵盖的主题/主题方面的相似性。基于这种量化的相似性度量,可以应用许多聚类算法对文档进行分组。

从这个意义上说,我认为主题建模是一种进行文档聚类的技术是正确的。

答案 1 :(得分:2)

聚类和分类之间的关系与主题建模和多标签分类之间的关系非常相似。

在单标签多类别分类中,我们为每个文档仅分配一个标签。在聚类中,我们将每个文档放在一个组中。事实是,当我们定义标签时,我们无法提前定义集群。如果我们忽略这一事实,分组和标签基本上是相同的。

然而,在现实世界中,平面分类是不够的。文档通常与多个类别/类相关。因此,我们利用多标签分类。现在,我们可以将主题建模视为多标签分类的无监督版本,因为我们可以将每个文档放在多个组/主题下。在这里,我忽略了这样一个事实,即我们无法事先确定要用作标签的主题。