应用错误收集

将相似性确定为距离单词移动器的距离的经典示例，例如https://markroxor.github.io/gensim/static/notebooks/WMD_tutorial.html， GoogleNews-vectors-negative300.bin上的word2vec模型，D1 =“奥巴马对伊利诺伊州的媒体讲话”，D2 =“总统在芝加哥迎接新闻界，D3 =”橙色是我最喜欢的水果“。当计算wmd距离时：距离（D1，D2）＝ 3.3741，距离（D1，D3）＝ 4.3802。因此，我们了解到（D1，D2）比（D1，D3）更相似。 vmd距离确定两个句子实际上包含几乎相同的信息的阈值是多少？也许在句子D1和D2的情况下，3.3741的值太大，实际上这些句子是不同的吗？例如，当有问题，正确答案的样本和学生的答案时，需要做出此类决定。在gojomo回答之后添加：让我们推迟识别和自动理解逻辑，以备后用。让我们考虑以下情况：两个句子中都有一个对象的枚举，或者一个对象的属性和动作以肯定的方式枚举，我们需要评估这两个句子的内容有多相似。

我不认为您可以使用任何绝对阈值。

“单词移动器的距离”在找到高度相似的文本时，尤其是在与其他候选文本的相对比较中，可以提供令人印象深刻的结果。

但是，其大小可能会受到文本大小的影响，并且进一步地，它对严格的语法/语义学也没有理解。因此，诸如微妙的否定或对比之类的事情，或者对于母语人士而言毫无意义的事情，不会被强调为与其他陈述“非常不同”。

例如，两个短语“许多历史学家一致认为奥巴马绝对是21世纪最好的总统”和“许多历史学家一致认为奥巴马绝对不是21世纪的最好总统”。在大多数情况下，基于字词统计信息（例如“单词移动者的距离”）的情况类似。但是，插入一个词意味着它们传达了一些相反的想法。

决定文本或句子的内容是否相同

1 个答案: