Spacy models与不同的'类型相关联。包括:词汇,语法,实体和向量。实体和向量映射到文档中可用功能的方式很明显(实体识别和单词向量)但是在解析文本后,词汇和语法如何与文档中可用的功能相关联?例如,多语言模型' xx_ent_wiki_sm'不提供词汇'这是否意味着使用该模型将无法使用令牌的is_oov?我之所以这样问是因为我想在Spacy之上提供一个基于不同语言模型的Web服务。
答案 0 :(得分:2)
"语法"指的是依赖解析所有相关的语言特征和属性。例如,token.dep_
,token.head
,doc.noun_chunks
或doc.sents
- 基本上,需要依赖关系解析的所有内容(see this page用于快速概述)。
"词汇"意味着Vocab
预先填充了一些最常用的单词。如果模型没有提供词汇,则所有令牌都将超出词汇量并返回True
is_oov
。较大的模型通常也会提供更大的词汇量。 sm
模型还应附带最常用单词的基本词汇表 - 但目前某些数据的设置方式可能存在问题,应在下次更新模型时修复。 / p>