标签: documentation spacy word-embedding
根据documentation:
spaCy的小型机型(所有以sm结尾的软件包)不附带 字向量,并且仅包含上下文相关的张量。 [...] 单个令牌不会分配任何向量。
但是当我使用de_core_news_sm模型时,令牌确实具有x.vector和x.has_vector=True的条目。
de_core_news_sm
x.vector
x.has_vector=True
这些似乎是context_vectors,但据我所知,文档中只有词向量可以通过vector属性访问,sm模型应该没有。为什么这对于“小型模型”有效?
vector
sm
答案 0 :(得分:0)
has_vector的行为与您预期的不同。
has_vector
在github上提出的issue的注释中对此进行了讨论。要点是,由于向量是可用的,因此即使这些向量是上下文向量,它也是True。请注意,您仍然可以使用它们,例如,计算相似度。
True
spaCy贡献者Ines的语录:
我们一直在研究has_vector应该如何表现 这样的情况。有一个向量,所以让它返回False将是 误导。同样,如果模型没有预训练 vocab,从技术上讲,所有词素都是OOV。
版本2.1.0已宣布包含德语单词向量。