比较英语句子相似度的算法

时间:2011-07-15 08:37:09

标签: algorithm

我有一系列句子,我需要对它们进行分析,看看它们有多相似。

有没有建立的算法可以做到这一点?

我关心:

  • 包含相同的单词(暂时忽略拐点)
  • 以相似的顺序包含相同的单词

之前我曾使用Levenshtein距离和n-gram进行拼写,但我并不完全相信这些是否符合我的目的。

天真地说,“我不关心拼写错误,错别字可以被视为不同的词语”,尽管考虑到这一点可能会很好。

也许是在空格中分割句子和上述(或其他)算法之一的混合物将是一个起点

有哪些选择?有什么建议吗?

谢谢!

2 个答案:

答案 0 :(得分:13)

This paper比较了几个句子相似性度量。也许您可以按原样使用其中一个,也可以根据需要进行修改。

否则句子相似性度量是google for的一个很好的关键术语。

答案 1 :(得分:0)

要忽略变形,您应该研究词干算法:http://en.wikipedia.org/wiki/Porter_stemmer

他们将单词缩减为根形式。