nlp.vocab

时间:2017-07-27 07:55:35

标签: spacy

当我遇到一个我不明白的不一致时,我正在探索spaCy标准en模型的字典:

import spacy
nlp = spacy.load('en')
'irritably' in spacy.en.language_data.LEMMA_INDEX['adv'] # True
'irritably' in nlp.vocab # False

到目前为止,这是nlp.vocab中唯一找不到的词。任何想法,为什么不存在?我在这里有什么误解?

1 个答案:

答案 0 :(得分:3)

原因可能是默认en模型的大小,默认模型是较小的50MB模型en_core_web_sm,其数据可能不是那么详尽,您的典型用例不会出现更大的模型{ {1}}

en_core_web_md

我认为vocab和language_data可能彼此不完全一致,并且取决于模型所具有的训练数据量。