移词器的距离与余弦相似度

时间:2020-01-04 15:52:27

标签: python nlp gensim semantics cosine-similarity

我想知道哪种算法最适合语义相似性?谁能解释为什么?

谢谢!

1 个答案:

答案 0 :(得分:0)

什么是语义相似的-单词,短语,句子,段落,文档,其他?最终目标是什么?

原始论文定义了“移词器的距离”“ From Word Embeddings To Document Distances”,给出了WMD运行良好的一些示例,并将其行为与其他相似度计算进行了比较。

但是,WMD的计算成本要高得多,尤其是在较长的文本上。而且作为一种使用每个单词的存在而不论其顺序如何的方法,在微小的语法变化(例如在正确的位置添加“ not”)可能完全颠倒人类读者的文本含义的情况下,它仍然不很强大。 。 (但是,同样,快速简单的比较,例如两个单词袋表示之间或两个单词平均向量表示之间的余弦相似性也不强)。