Question

我正在尝试在Word2vec周围使用python包装器。我有一个单词嵌入或一组单词，可以在下面看到，从中我试图确定哪个单词彼此最相似。

我该怎么做？

[“建筑师”，“护士”，“外科医生”，“祖母”，“爸爸”]

Answer 1

根据您的评论，假设您使用的是gensim的word2vec：

加载或训练嵌入模型，然后在模型上调用：

min_distance = float('inf')
min_pair = None
word2vec_model_wv = model.wv  # Unsure if this can be done in the loop, but just to be safe efficiency-wise
for candidate_word1 in words:
    for candidate_word2 in words:
        if candidate_word1 == candidate_word2:
            continue  # ignore when the two words are the same

        distance = word2vec_model_wv.distance(candidate_word1, candidate_word2)
        if distance < min_distance:
            min_pair = (candidate_word1, candidate_word2)
            min_distance = distance

https://radimrehurek.com/gensim/models/keyedvectors.html#gensim.models.keyedvectors.WordEmbeddingsKeyedVectors.distance

也可能是相似的（我不完全确定是否有区别）。 https://radimrehurek.com/gensim/models/keyedvectors.html#gensim.models.keyedvectors.WordEmbeddingsKeyedVectors.similarity

如果像我期望的那样，如果用更接近的单词使相似性变大，那么您将希望最大化而不是最小化，而只是将distance函数调用替换为相似性调用。基本上，这只是对上的简单的最小/最大函数。

Answer 2

@ rylan-feldspar的答案通常是正确的方法，并且可以使用，但是您可以使用标准Python库/惯用语（尤其是itertools，列表理解和排序功能）来更紧凑地完成此操作。

例如，首先使用combinations()中的itertools来生成所有候选单词对：

from itertools import combinations
candidate_words = ['architect', 'nurse', 'surgeon', 'grandmother', 'dad']
all_pairs = combinations(candidate_words, 2)

然后，用成对相似性装饰对：

scored_pairs = [(w2v_model.wv.similarity(p[0], p[1]), p)
                for p in all_pairs]

最后，排序以将最相似的对放在首位，并报告得分和对：

sorted_pairs = sorted(scored_pairs, reverse=True)
print(sorted_pairs[0])  # first item is most-similar pair

如果您想紧凑但不易读，则可以使用（长）“ 1-liner”：

print(sorted([(w2v_model.wv.similarity(p[0], p[1]), p) 
              for p in combinations(candidate_words, 2)
             ], reverse=True)[0])

更新：

结合@ ryan-feldspar关于max()的建议，并尽量减少，这也应该报告最佳配对（而不是分数）：

print(max(combinations(candidate_words, 2),
          key=lambda p:w2v_model.wv.similarity(p[0], p[1])))

使用Word2vec来确定一组词中最相似的两个词

2 个答案: