Mallet LDA主题建模中的空主题

时间:2015-11-17 05:14:52

标签: java topic-modeling mallet

当我运行具有更多主题数量的Mallet LDA(例如,T> 300)时,我会得到包含空主题词的主题(不具有单个主题词)。

为什么会这样?这是Mallet中的错误吗?

我在ubuntu 14.04计算机上使用mallet 2.0.7。

修改

mallet-2.0.7/bin/mallet import-dir --input $path/$posts --output $outputDir/$posts.mallet \
        --keep-sequence --remove-stopwords --token-regex "[\\p{Alpha}_]+"  #--save-text-in-source

  mallet-2.0.7/bin/mallet train-topics --input $outputDir/$posts.mallet \
        --num-topics $topics --output-state $outputDir/topic-state.gz \
        --output-topic-keys $outputDir/topics.txt --output-doc-topics $outputDir/document_composition.txt \
        --topic-word-weights-file $outputDir/topic_word_weights.txt --num-top-words $numtopwords \
        --optimize-interval 10 --word-topic-counts-file $outputDir/topic_counts.txt

至于语料库详细信息,它包含大约1000个文件。每个文件可能包含一个或几个句子。语料库的大小约为1 MB。

1 个答案:

答案 0 :(得分:4)

我从David Mimno那里得到答案:

这通常表示您拥有与语料库大小相关的大量主题。 Mallet使用Gibbs抽样,因此主题基于当前分配给主题的令牌的实际计数。这些"空的"没有错。主题本身,只要你知道不要过分信任它们。