德语单词的spaCy向量的差异性文档和实现?

时间:2018-10-17 12:44:42

标签: documentation spacy word-embedding

根据documentation

  

spaCy的小型机型(所有以sm结尾的软件包)不附带   字向量,并且仅包含上下文相关的张量。 [...]   单个令牌不会分配任何向量。

但是当我使用de_core_news_sm模型时,令牌确实具有x.vectorx.has_vector=True的条目。

这些似乎是context_vectors,但据我所知,文档中只有词向量可以通过vector属性访问,sm模型应该没有。为什么这对于“小型模型”有效?

1 个答案:

答案 0 :(得分:0)

has_vector的行为与您预期的不同。

在github上提出的issue的注释中对此进行了讨论。要点是,由于向量是可用的,因此即使这些向量是上下文向量,它也是True。请注意,您仍然可以使用它们,例如,计算相似度。

spaCy贡献者Ines的语录:

  

我们一直在研究has_vector应该如何表现   这样的情况。有一个向量,所以让它返回False将是   误导。同样,如果模型没有预训练   vocab,从技术上讲,所有词素都是OOV。

版本2.1.0已宣布包含德语单词向量。