Question

model.similar_by_vector(model['king'] - model['man'] + model['woman'], topn=1)[0]

结果

('king', 0.8551837205886841)

而

model.most_similar(positive=['king', 'queen'], negative=['man'], topn=1)[0]

给出不同的答案（您期望的答案）

('monarch', 0.6350384950637817)

但是我希望它们都能返回相同的结果。我是否误解了如何对这些向量进行向量数学运算？

Answer 1

例如，如果您想仔细查看它们在做什么与您期望的不同，可以查看most_similar()（和similar_by_vector()）方法的源代码。通过在线浏览项目的源存储库：

尤其是，您看到的差异可能有几个因素在起作用：

当您向most_similar()提供查找键（单词令牌）时，如果您想要传入的答案中没有的答案，则将这些键作为答案返回会失去资格。参数。也就是说，即使目标位置最接近'king'，如果'king'是提供的键之一，也将被忽略为可能的排名响应。
most_similar()使用每个输入词的单位长度归一化版本（通过使用word_vec(word, use_norm=True)进行查找，而方括号查找（例如model[word]）则使用原始非标准化向量。