如何使用gensim从受约束的词汇表中过滤出语料库中的单词?

时间:2017-01-18 20:56:51

标签: python nlp gensim topic-modeling

我正在使用gensim进行主题建模。我使用

创建了一个语料库
wordDict = corpora.Dictionary(trimmedTextTokens)

gsCorpus = [wordDict.doc2bow(text) for text in trimmedTextTokens]

其中trimmedTextTokens是删除停用词的结果。现在我想从语料库中过滤出不在限制词或构造词汇表列表中的术语。有任何想法吗?谢谢!!

1 个答案:

答案 0 :(得分:0)

假设您的受限词汇表位于名为restrictedVocabularyList的变量中,您可以这样做:

wordDict = corpora.Dictionary(trimmedTextTokens)

gsCorpus = [wordDict.doc2bow(text) for text in trimmedTextTokens if text in restrictedVocabularyList]