标签: nlp lda gensim topic-modeling lsa
我正在阅读Experiments on the English Wikipedia教程,并注意到LSA和LDA生成的许多主题包含明确连接的多字词,例如: northamerica , hockeyarchives
有人可以指出这发生的地方。我查看了 gensim.scripts.make_wiki , gensim.corpora.wikicorpus 和 genesis.utils 。