我需要找到与model.most_similar()
相反的东西
虽然most_similar()
返回的单词数组与输入的单词数组最相似,但我需要找到一个单词列表的“中心”。
gensim或其他工具中是否有可以帮助我的功能?
例:
给定{'chimichanga', 'taco', 'burrito'}
,中心可能是mexico
或food
,具体取决于模型所训练的语料库
答案 0 :(得分:2)
如果您提供单词列表作为positive
的{{1}}参数,它将报告与其均值最接近的单词(这似乎是对单词''center'的合理解释) 。
例如:
most_similar()
(我有点怀疑最高结果sims = model.most_similar(positive=['chimichanga', 'taco', 'burrito'])
这里将是'墨西哥'或'食物';它最有可能是另一个墨西哥食物词。不一定是“更通用”/上位词可以在word2vec单词之间或某些方向上找到关系...但是其他一些嵌入技术(例如hyperbolic embeddings)可能会提供这种关系。)