在Gensim中添加停用词

时间:2019-03-19 19:08:36

标签: python windows nlp gensim stop-words

感谢您的光临!我有一个关于添加停用词的快速问题。我在数据集中显示了一些单词,希望能将它们添加到gensims停止单词列表中。我已经看到了很多使用nltk的示例,我希望有一种方法可以在gensim中进行相同的操作。我将在下面发布我的代码:

def preprocess(text):
    result = []
    for token in gensim.utils.simple_preprocess(text):
        if token not in gensim.parsing.preprocessing.STOPWORDS and len(token) > 3:
            nltk.bigrams(token)
            result.append(lemmatize_stemming(token))
    return result

2 个答案:

答案 0 :(得分:1)

虽然gensim.parsing.preprocessing.STOPWORDS是为您的方便而预先定义的,而恰好是frozenset,因此不能直接添加到其中,但是您可以轻松地制作一个包含这两个词的较大集合和你的补充。例如:

from gensim.parsing.preprocessing import STOPWORDS
my_stop_words = STOPWORDS.union(set(['mystopword1', 'mystopword2']))

然后在后续的停用词删除代码中使用较大的新my_stop_words。 (simple_preprocess()的{​​{1}}功能不会自动删除停用词。)

答案 1 :(得分:0)

def preprocess(text):
    result = []
    for token in gensim.utils.simple_preprocess(text):
        newStopWords = ['stopword1','stopword2']
        if token not in gensim.parsing.preprocessing.STOPWORDS and token not in newStopWords and len(token) > 3:
            nltk.bigrams(token)
            result.append(lemmatize_stemming(token))
    return result