LDA结果在两个不同主题上的相似性?

时间:2014-06-28 01:50:07

标签: machine-learning nlp lda

如果我们在LDA中选择20个主题,然后我们选择30个主题。所以我的问题是这两个结果是否会与这20个主题相交并产生类似的结果

1 个答案:

答案 0 :(得分:2)

简短回答 - 不。 LDA的工作方式是使用Gibbs采样器在文档向量上获得Dirichlet分布。然后对该样本进行分配,因此除了定义显式随机种子并运行相同数量的主题k之外,因为采样随机性和分配不确定性将始终不同。看看原始论文Blei等人。 2003年,看看k是如何定义的。

更新(关于评论):分层LDA(hLDA)试图通过在中国餐馆模型之后构建主题级别来解决保留主题和子主题的问题。但它仍然不完美。

平面LDA的工作方式是,它会查看文档而不是主题以产生更多结果。说,你得到主题0(餐厅的第一张桌子),所有文件都试图坐在那里,但它不够空间,你创建另一个主题1,一些文档感觉更舒服,等等,现在你是对的如何创建这些表的观点。但是有一件大事是关键的 - 主题0当你创建一个新的表/主题1时会改变,因为有些文件已经离开了第一个表,并把它们(或者它们的共同概率)与它们一起带到新表和所有单词中鉴于新情况,主题0得到了改组。当您创建更多的表/主题时,也会发生同样的情况,以前的所有表都会被重新估算。因此,在使用30重新运行时,您永远不会获得相同的20个主题。