将相似性确定为距离单词移动器的距离的经典示例,例如https://markroxor.github.io/gensim/static/notebooks/WMD_tutorial.html, GoogleNews-vectors-negative300.bin上的word2vec模型,D1 =“奥巴马对伊利诺伊州的媒体讲话”,D2 =“总统在芝加哥迎接新闻界,D3 =”橙色是我最喜欢的水果“。当计算wmd距离时:距离(D1,D2)= 3.3741,距离(D1,D3)= 4.3802。因此,我们了解到(D1,D2)比(D1,D3)更相似。 vmd距离确定两个句子实际上包含几乎相同的信息的阈值是多少?也许在句子D1和D2的情况下,3.3741的值太大,实际上这些句子是不同的吗?例如,当有问题,正确答案的样本和学生的答案时,需要做出此类决定。 在gojomo回答之后添加: 让我们推迟识别和自动理解逻辑,以备后用。让我们考虑以下情况:两个句子中都有一个对象的枚举,或者一个对象的属性和动作以肯定的方式枚举,我们需要评估这两个句子的内容有多相似。
答案 0 :(得分:1)
我不认为您可以使用任何绝对阈值。
“单词移动器的距离”在找到高度相似的文本时,尤其是在与其他候选文本的相对比较中,可以提供令人印象深刻的结果。
但是,其大小可能会受到文本大小的影响,并且进一步地,它对严格的语法/语义学也没有理解。因此,诸如微妙的否定或对比之类的事情,或者对于母语人士而言毫无意义的事情,不会被强调为与其他陈述“非常不同”。
例如,两个短语“许多历史学家一致认为奥巴马绝对是21世纪最好的总统”和“许多历史学家一致认为奥巴马绝对不是21世纪的最好总统”。在大多数情况下,基于字词统计信息(例如“单词移动者的距离”)的情况类似。但是,插入一个词意味着它们传达了一些相反的想法。