Question

我在twitter上训练了一个word2vec模型。我使用

将其导入gensim

from gensim.models.keyedvectors import KeyedVectors
word_vectors = KeyedVectors.load_word2vec_format('./twitter.txt', binary=False)

我想使用与此类似的功能：

word_vectors.most_similar(positive=['woman', 'king'], negative=['man'])

显示最相似的单词，但我想将结果限制为以主题标签开头的单词。有人可以解释一下我是如何做到这一点的吗？

Answer 1

Gensim索引器在查询邻居时不支持过滤。但你可以自己做过滤：

[item for item in word_vectors.most_similar(positive=['woman', 'king'], 
                                            negative=['man'], 
                                            topn=1000) 
      if item[0].startswith('#')]

Gensim word2vec most_similar过滤#prefix

1 个答案: