潜在Dirichlet分配与文档聚类的关系

时间:2011-07-07 14:17:37

标签: nlp machine-learning data-mining text-mining lda

我想澄清潜在的Dirichlet分配(LDA)与文档聚类的通用任务之间的关系。

LDA分析倾向于输出每个文档的主题比例。如果我的理解是正确的,这不是文档聚类的直接结果。但是,我们可以将此概率比例视为每个文档的特征代表。之后,我们可以根据LDA分析生成的特征配置调用其他已建立的聚类方法。

我的理解是否正确?感谢。

1 个答案:

答案 0 :(得分:10)

是的,您可以将LDA的输出视为文档的功能;这正是Blei,Ng和Jordan在paper that introduced LDA中所做的。他们这样做是为了分类,但对于聚类,程序是一样的。

(在机器学习术语中,这种LDA的使用称为降维,因为它将要素空间的维数从| V |(词汇量大小)减少到用户选择的一些 k 主题。)