我正在使用gensim进行主题建模。我使用
创建了一个语料库wordDict = corpora.Dictionary(trimmedTextTokens)
gsCorpus = [wordDict.doc2bow(text) for text in trimmedTextTokens]
其中trimmedTextTokens是删除停用词的结果。现在我想从语料库中过滤出不在限制词或构造词汇表列表中的术语。有任何想法吗?谢谢!!
答案 0 :(得分:0)
假设您的受限词汇表位于名为restrictedVocabularyList
的变量中,您可以这样做:
wordDict = corpora.Dictionary(trimmedTextTokens)
gsCorpus = [wordDict.doc2bow(text) for text in trimmedTextTokens if text in restrictedVocabularyList]