Mahout LDA如何预测测试数据集的主题?

时间:2012-09-21 06:05:52

标签: mahout lda topic-modeling

从apache Mahout网站https://cwiki.apache.org/MAHOUT/latent-dirichlet-allocation.html我能够看到适合LDA模型的过程,并以P(“word”|“topic number”)的形式输出计算出的主题。但是,没有关于如何将训练模型应用于测试数据以预测主题分布的信息。或者我们应该编写自己的程序来使用条件概率的输出来查找测试数据集中的主题吗?

1 个答案:

答案 0 :(得分:0)

请看看2009年Wallach等人的出版物。人。标题为“主题模型的评估方法”here。看看第4节,它提到了三种计算P(z | w)的方法,一种基于重要性抽样,另外两种称为“Chib式估算器”和“从左到右估算器”。

Mallet实施了从左到右的估算方法。