应用错误收集

时间：2011-07-15 08:37:09

标签： algorithm

我有一系列句子，我需要对它们进行分析，看看它们有多相似。

有没有建立的算法可以做到这一点？

我关心：

之前我曾使用Levenshtein距离和n-gram进行拼写，但我并不完全相信这些是否符合我的目的。

天真地说，“我不关心拼写错误，错别字可以被视为不同的词语”，尽管考虑到这一点可能会很好。

也许是在空格中分割句子和上述（或其他）算法之一的混合物将是一个起点

有哪些选择？有什么建议吗？

谢谢！

答案 0 :(得分：13)

This paper比较了几个句子相似性度量。也许您可以按原样使用其中一个，也可以根据需要进行修改。

否则句子相似性度量是google for的一个很好的关键术语。

答案 1 :(得分：0)

要忽略变形，您应该研究词干算法：http://en.wikipedia.org/wiki/Porter_stemmer

他们将单词缩减为根形式。