为什么spacy返回像'zz'这样的单词的向量?它们不应该是零向量

时间:2018-03-07 09:45:21

标签: spacy

nlp。('zz')。vector.sum是-10。

nlp('asc')。vector.sum是-9.677

这些词不应该超出词汇量并且没有向量吗?

2 个答案:

答案 0 :(得分:0)

根据您使用的模型,培训语料库可能包含大量缩写,非正式单词(例如您的示例中的单词),拼写错误甚至外语的单词。这些仍被视为词位,并被指定为载体。

答案 1 :(得分:-1)

https://spacy.io/usage/models

Spacy的默认英语模型不包含向量,因此它会尝试从您的文本中推断出它们。如果您使用较大的模型,它们包括矢量。

v这将没有有效的载体

import spacy
nlp = spacy.load('en')

import spacy
nlp = spacy.load('en_core_web_md')

^这将有你正在寻找的载体(我相信)