我在twitter上训练了一个word2vec模型。我使用
将其导入gensimfrom gensim.models.keyedvectors import KeyedVectors
word_vectors = KeyedVectors.load_word2vec_format('./twitter.txt', binary=False)
我想使用与此类似的功能:
word_vectors.most_similar(positive=['woman', 'king'], negative=['man'])
显示最相似的单词,但我想将结果限制为以主题标签开头的单词。 有人可以解释一下我是如何做到这一点的吗?
答案 0 :(得分:0)
Gensim索引器在查询邻居时不支持过滤。但你可以自己做过滤:
[item for item in word_vectors.most_similar(positive=['woman', 'king'],
negative=['man'],
topn=1000)
if item[0].startswith('#')]