找到最接近单词的单词

时间:2018-06-06 15:11:39

标签: python nlp word2vec gensim

我需要找到与model.most_similar()相反的东西 虽然most_similar()返回的单词数组与输入的单词数组最相似,但我需要找到一个单词列表的“中心”。

gensim或其他工具中是否有可以帮助我的功能?

例:
给定{'chimichanga', 'taco', 'burrito'},中心可能是mexicofood,具体取决于模型所训练的语料库

1 个答案:

答案 0 :(得分:2)

如果您提供单词列表作为positive的{​​{1}}参数,它将报告与其均值最接近的单词(这似乎是对单词''center'的合理解释) 。

例如:

most_similar()

(我有点怀疑最高结果sims = model.most_similar(positive=['chimichanga', 'taco', 'burrito']) 这里将是'墨西哥'或'食物';它最有可能是另一个墨西哥食物词。不一定是“更通用”/上位词可以在word2vec单词之间或某些方向上找到关系...但是其他一些嵌入技术(例如hyperbolic embeddings)可能会提供这种关系。)