Gensim word2vec most_similar过滤#prefix

时间:2018-01-07 13:31:37

标签: python machine-learning nlp word2vec gensim

我在twitter上训练了一个word2vec模型。我使用

将其导入gensim
from gensim.models.keyedvectors import KeyedVectors
word_vectors = KeyedVectors.load_word2vec_format('./twitter.txt', binary=False)  

我想使用与此类似的功能:

word_vectors.most_similar(positive=['woman', 'king'], negative=['man'])

显示最相似的单词,但我想将结果限制为以主题标签开头的单词。 有人可以解释一下我是如何做到这一点的吗?

1 个答案:

答案 0 :(得分:0)

Gensim索引器在查询邻居时不支持过滤。但你可以自己做过滤:

[item for item in word_vectors.most_similar(positive=['woman', 'king'], 
                                            negative=['man'], 
                                            topn=1000) 
      if item[0].startswith('#')]