在Spacy引理后检测禁用词

时间:2017-11-28 02:43:12

标签: python nlp spacy stop-words lemmatization

如何在spaCy中的词干化和词形还原后检测单词是否为禁用词?

假设句子

s = "something good\nsomethings 2 bad"

在这种情况下,something是一个停用词。显然(对我来说?)Somethingsomethings也是停用词,但它需要先制作。下面的脚本会说第一个是真的,但后者不是。

import spacy
from spacy.tokenizer import Tokenizer
nlp = spacy.load('en')
tokenizer = Tokenizer(nlp.vocab)

s = "something good\nSomething 2 somethings"
tokens = tokenizer(s)

for token in tokens:
  print(token.lemma_, token.is_stop)

返回:

something True
good False
"\n" False
Something False
2 False
somethings False

有没有办法通过spaCy API检测到它?

0 个答案:

没有答案