应用错误收集

时间：2014-04-04 19:38:30

标签： topic-modeling

我正在尝试使用vowpal wabbit lda模型。但是我的结果非常糟糕。我认为我正在做的过程有问题。我的词汇量大小为100000。

我像这样运行代码

vw --data train.txt --lda 50 --lda_alpha 0.1 --lda_rho 0.1 --lda_D 262726 -b 20 -pions.dat --readable_model wordtopics.dat

现在我期待wordtopics.dat文件包含这些100000个单词的主题比例，但看起来这个词topics.dat文件非常庞大，包含1048587行。

我认为这是因为b = 20，并且最后的线条具有均匀的概率分布。

然而，当我看到所获得的主题时，它们根本没有意义。所以我觉得有些不对劲。怎么会出错呢？

答案 0 :(得分：0)

没有回答你的问题，但哥伦比亚大学应用数据科学的人已经与大众的LDA合作helper，尤其是在查看结果时。

同时尝试使用--passes选项，以便VW结果可以比一些训练更好。