我正在尝试使用vowpal wabbit lda模型。但是我的结果非常糟糕。我认为我正在做的过程有问题。我的词汇量大小为100000。
我像这样运行代码
vw --data train.txt --lda 50 --lda_alpha 0.1 --lda_rho 0.1 --lda_D 262726 -b 20 -pions.dat --readable_model wordtopics.dat
现在我期待wordtopics.dat文件包含这些100000个单词的主题比例,但看起来这个词topics.dat文件非常庞大,包含1048587行。
我认为这是因为b = 20,并且最后的线条具有均匀的概率分布。
然而,当我看到所获得的主题时,它们根本没有意义。所以我觉得有些不对劲。怎么会出错呢?
答案 0 :(得分:0)
没有回答你的问题,但哥伦比亚大学应用数据科学的人已经与大众的LDA合作helper,尤其是在查看结果时。
同时尝试使用--passes
选项,以便VW结果可以比一些训练更好。