Question

当我遇到一个我不明白的不一致时，我正在探索spaCy标准en模型的字典：

import spacy
nlp = spacy.load('en')
'irritably' in spacy.en.language_data.LEMMA_INDEX['adv'] # True
'irritably' in nlp.vocab # False

到目前为止，这是nlp.vocab中唯一找不到的词。任何想法，为什么不存在？我在这里有什么误解？

Answer 1

原因可能是默认en模型的大小，默认模型是较小的50MB模型en_core_web_sm，其数据可能不是那么详尽，您的典型用例不会出现更大的模型{ {1}}

en_core_web_md

我认为vocab和language_data可能彼此不完全一致，并且取决于模型所具有的训练数据量。