当我遇到一个我不明白的不一致时,我正在探索spaCy标准en
模型的字典:
import spacy
nlp = spacy.load('en')
'irritably' in spacy.en.language_data.LEMMA_INDEX['adv'] # True
'irritably' in nlp.vocab # False
到目前为止,这是nlp.vocab
中唯一找不到的词。任何想法,为什么不存在?我在这里有什么误解?
答案 0 :(得分:3)
原因可能是默认en
模型的大小,默认模型是较小的50MB模型en_core_web_sm
,其数据可能不是那么详尽,您的典型用例不会出现更大的模型{ {1}}
en_core_web_md
我认为vocab和language_data可能彼此不完全一致,并且取决于模型所具有的训练数据量。