LDA Mahout只有一个话题

时间:2012-06-28 19:58:49

标签: mahout lda

我正在尝试按照Mahout In Action一书中关于路透社数据使用LDA的示例。但是,无论我运行它的次数多少,我总是只有一个主题。

我按照指示跑了命令:

mahout lda -i reuters-vectors/tf-vectors -o reuters-lda-sparse -k 10 -v 34262 -x 20 -ow

我从运行seqdumper获得了这个号码。命令运行后,我按照书中的说明运行LDAPrintTopics并获取以下内容:

Topic 0
===========
billion [p(billion|topic_0) = 0.04580929884162013
pct [p(pct|topic_0) = 0.043323700764985575
dlrs [p(dlrs|topic_0) = 0.031395871939373196
3 [p(3|topic_0) = 0.027311386657272094
1987 [p(1987|topic_0) = 0.025690077982656934
1 [p(1|topic_0) = 0.022727304049111215
reuter [p(reuter|topic_0) = 0.019572283708227903
mln [p(mln|topic_0) = 0.014569551610736616
april [p(april|topic_0) = 0.014453636611524965
march [p(march|topic_0) = 0.014359948846622552

有没有办法从LDA中获取更多主题?

感谢。

1 个答案:

答案 0 :(得分:1)

您的命令说-k 10指定需要10个主题。

请参阅此https://cwiki.apache.org/MAHOUT/latent-dirichlet-allocation.html

尝试更改您的数据集,可能太小而无法生成10个不同的主题