Word Mover在两个文档的单词对之间的距离计算

时间:2017-09-13 16:13:12

标签: machine-learning nlp word2vec word-embedding wmd

根据WMD paper,单词对之间的旅行费用或欧几里德距离的计算方法如下图所示。

enter image description here

此距离是按特定顺序成对计算的吗?这样从图中所示的每个文件的第一个,第二个等等或奥巴马的距离是从D0中的所有四个单词计算出来的,然后这四个单词中的最小值仅在图中显示。

有人能解释一下这是如何运作的吗?

另外,为什么D3中的所有三个单词都与D0中的总统相比?

1 个答案:

答案 0 :(得分:1)

WMD的计算要求在第一个文本中找到最便宜的字重配置移位到第二个文本的字重配置。

字序无关紧要。一个文本中的任何单词质量都可以移动到另一个文本中任何单词的位置。因此,找到最佳位移的优化过程将考虑许多可能的配对。在找到最佳之后,最终的单个WMD编号是该最佳解决方案中的总行程距离。

由于字数不同,单词可能不会一对一移位,而是作为全文质量的比例。因此,请考虑您所包含的图形中的底部示例:顶部文本 D0 有4个重要单词,底部文本 D3 只有3个重要单词。因此,每个顶部文本的4个单词可以被认为具有0.25质量,并且每个底部文本的单词可以被认为具有0.33质量。

'奥巴马'因此,可能会非常贴近总统' - 甚至移动了0.25%的奥巴马'群众到总统'留下0.08质量,必须前往另一个 D0 字。与“伊利诺伊州”类似。和芝加哥' - 即使是0.25%的伊利诺伊州'群众被移动到芝加哥'剩余0.08是必须前往另一个 D0 字的剩余部分。选择的路径和比例的确切组合将是最好的,但通常会涉及一些单词在多个其他单词中进行分数移位。