潜在的dirichlet分配如何处理不在词汇表中的单词

时间:2014-11-23 00:56:51

标签: c++ text-mining

对于潜在的dirichlet分配,因为它假定一个固定的词汇包(我用tf-idf方法获得),我们如何处理不在单词包中的单词,比如那些停用词呢?

我们是否仍然认为这些词在文档中占据一席之地(换句话说,我们应该为这些词分配主题)还是只是忽略这些词?

谢谢!

1 个答案:

答案 0 :(得分:0)

我假设出现这个问题是因为您训练LDA获取主题向量的语料库没有您在测试文档中找到的单词(稍后为了让他们的主题分解而进入实验)。如果是这种情况,那么如果您的语料库有大量单词,则忽略新单词就可以了。如果它是一个英语语料库,那么词汇大小超过100,000个单词将被视为足够大。

另一方面,如果不是这种情况,并且这些新单词会将一个文档与另一个文档区分开来,那么最好建议您通过在训练集中包含这些单词来运行LDA。