使用spacy添加/删除停用词

时间:2016-12-15 18:11:49

标签: python nlp stop-words spacy

使用spacy添加/删除停用词的最佳方法是什么?我正在使用token.is_stop函数,并希望对该集进行一些自定义更改。我正在查看文档,但找不到关于停用词的任何内容。谢谢!

7 个答案:

答案 0 :(得分:22)

您可以在处理文字之前对其进行编辑(请参阅this post):

Accordion

注意:这似乎有效< = v1.8。对于较新的版本,请参阅其他答案。

答案 1 :(得分:21)

使用Spacy 2.0.11,您可以使用以下其中一项更新其停用词集:

要添加一个停用词:

import spacy    
nlp = spacy.load("en")
nlp.Defaults.stop_words.add("my_new_stopword")

要一次添加几个停用词:

import spacy    
nlp = spacy.load("en")
nlp.Defaults.stop_words |= {"my_new_stopword1","my_new_stopword2",}

要删除单个停用词:

import spacy    
nlp = spacy.load("en")
nlp.Defaults.stop_words.remove("whatever")

要一次删除多个停用词:

import spacy    
nlp = spacy.load("en")
nlp.Defaults.stop_words -= {"whatever", "whenever"}

注意:要查看当前的停用词集,请使用:

print(nlp.Defaults.stop_words)

答案 2 :(得分:11)

对于版本2.0,我使用了这个:

from spacy.lang.en.stop_words import STOP_WORDS

print(STOP_WORDS) # <- set of Spacy's default stop words

STOP_WORDS.add("your_additional_stop_word_here")

for word in STOP_WORDS:
    lexeme = nlp.vocab[word]
    lexeme.is_stop = True

这会将所有停用词加载到一个集合中。

您可以将停用词修改为STOP_WORDS或首先使用您自己的列表。

答案 3 :(得分:2)

对于2.0使用以下内容:

for word in nlp.Defaults.stop_words:
    lex = nlp.vocab[word]
    lex.is_stop = True

答案 4 :(得分:0)

这也收集停用词:)

spacy_stopwords = spacy.lang.en.stop_words.STOP_WORDS

答案 5 :(得分:0)

以下最新版本会将单词从列表中删除:

spacy_stopwords = spacy.lang.en.stop_words.STOP_WORDS
spacy_stopwords.remove('not')

答案 6 :(得分:0)

对于 2.3.0 版本 如果您想替换整个列表而不是添加或删除几个停用词,您可以这样做:

custom_stop_words = set(['the','and','a'])

# First override the stop words set for the language
cls = spacy.util.get_lang_class('en')
cls.Defaults.stop_words = custom_stop_words

# Now load your model
nlp = spacy.load('en_core_web_md')

诀窍是在加载模型之前为语言分配停用词集。它还确保停用词的任何大写/小写变体都被视为停用词。