推断句子相似性给出词语相似性

时间:2015-01-27 04:31:53

标签: wordnet cosine-similarity word2vec sentence-similarity

假设我对两个句子中的每对单词都有单词相似度得分,那么从这些得分中确定整体句子相似度的好方法是什么?

使用表示每个单词的向量的余弦相似度计算单词分数。

既然我有单词分数,那么将单个单词分数相加并除以两个句子的总单词数来获得两个句子的分数是否太天真了?

我已经阅读了关于进一步构建用于表示句子的向量,使用单词分数,然后再次使用余弦相似性来比较句子。但是我不熟悉如何从现有的单词分数构造句子向量。我也不知道与上述天真的方法相比有什么权衡,至少我很容易理解。 :)

非常感谢任何见解。

感谢。

1 个答案:

答案 0 :(得分:0)

我最终做的是,取每组矢量的均值,然后将余弦相似性应用于两种方法,从而得到句子的分数。

我不确定这种方法在数学上是多么合理,但我已经看到它在其他地方完成(比如python' gensim)。