应用错误收集

如何在spaCy中的词干化和词形还原后检测单词是否为禁用词？

假设句子

s = "something good\nsomethings 2 bad"

在这种情况下，something是一个停用词。显然（对我来说？）Something和somethings也是停用词，但它需要先制作。下面的脚本会说第一个是真的，但后者不是。

import spacy
from spacy.tokenizer import Tokenizer
nlp = spacy.load('en')
tokenizer = Tokenizer(nlp.vocab)

s = "something good\nSomething 2 somethings"
tokens = tokenizer(s)

for token in tokens:
  print(token.lemma_, token.is_stop)

something True
good False
"\n" False
Something False
2 False
somethings False

有没有办法通过spaCy API检测到它？

在Spacy引理后检测禁用词

0 个答案: