我有一系列句子,我需要对它们进行分析,看看它们有多相似。
有没有建立的算法可以做到这一点?
我关心:
之前我曾使用Levenshtein距离和n-gram进行拼写,但我并不完全相信这些是否符合我的目的。
天真地说,“我不关心拼写错误,错别字可以被视为不同的词语”,尽管考虑到这一点可能会很好。
也许是在空格中分割句子和上述(或其他)算法之一的混合物将是一个起点
有哪些选择?有什么建议吗?
谢谢!
答案 0 :(得分:13)
This paper比较了几个句子相似性度量。也许您可以按原样使用其中一个,也可以根据需要进行修改。
否则句子相似性度量是google for的一个很好的关键术语。
答案 1 :(得分:0)
要忽略变形,您应该研究词干算法:http://en.wikipedia.org/wiki/Porter_stemmer
他们将单词缩减为根形式。