Word Mover在Python中的距离

时间:2017-04-17 02:14:36

标签: python python-3.x text nlp information-retrieval

我正在尝试使用WMD计算2个文本的相似度。我试图在Python 3中使用以下代码,使用gensim:

word2vec_model = gensim.models.KeyedVectors.load_word2vec_format('GoogleNews-vectors-negative300.bin', binary=True)
word2vec_model.init_sims(replace=True) # normalizes vectors
distance = word2vec_model.wmdistance("string 1", "string 2")  # Compute WMD as normal.

但是,我认为这不会给我带来正确的价值。我应该如何在python中执行此操作?

1 个答案:

答案 0 :(得分:4)

请分割字符串:

distance = word2vec_model.wmdistance("string 1".split(), "string 2".split())
>>> 0.4114476676950455

参数必须是字符串列表。