如何在spaCy
中的词干化和词形还原后检测单词是否为禁用词?
假设句子
s = "something good\nsomethings 2 bad"
在这种情况下,something
是一个停用词。显然(对我来说?)Something
和somethings
也是停用词,但它需要先制作。下面的脚本会说第一个是真的,但后者不是。
import spacy
from spacy.tokenizer import Tokenizer
nlp = spacy.load('en')
tokenizer = Tokenizer(nlp.vocab)
s = "something good\nSomething 2 somethings"
tokens = tokenizer(s)
for token in tokens:
print(token.lemma_, token.is_stop)
返回:
something True
good False
"\n" False
Something False
2 False
somethings False
有没有办法通过spaCy
API检测到它?