Spacy模型类型和可用功能映射

时间:2017-11-17 13:42:30

标签: spacy

Spacy models与不同的'类型相关联。包括:词汇,语法,实体和向量。实体和向量映射到文档中可用功能的方式很明显(实体识别和单词向量)但是在解析文本后,词汇和语法如何与文档中可用的功能相关联?例如,多语言模型' xx_ent_wiki_sm'不提供词汇'这是否意味着使用该模型将无法使用令牌的is_oov?我之所以这样问是因为我想在Spacy之上提供一个基于不同语言模型的Web服务。

1 个答案:

答案 0 :(得分:2)

"语法"指的是依赖解析所有相关的语言特征和属性。例如,token.dep_token.headdoc.noun_chunksdoc.sents - 基本上,需要依赖关系解析的所有内容(see this page用于快速概述)。

"词汇"意味着Vocab预先填充了一些最常用的单词。如果模型没有提供词汇,则所有令牌都将超出词汇量并返回True is_oov。较大的模型通常也会提供更大的词汇量。 sm模型还应附带最常用单词的基本词汇表 - 但目前某些数据的设置方式可能存在问题,应在下次更新模型时修复。 / p>