两个文本的相似性(关键词的自适应局部对齐?)

时间:2009-08-19 12:08:42

标签: algorithm similarity

我有2个不同长度的文本(最多4000个字符)。我需要根据(部分)释义获得相似率。请注意,相同部分的文本可以在每个文本中处于不同的位置(所以 Levenshtein 不是解决方案)。

比较过程还应该:

  • 不增加世博会。文字大小
  • 表现友好。 :)

似乎“关键字的自适应本地对齐”是一种可能的解决方案。

您有任何实施示例吗?首选语言是PHP,但我可以翻译。 :)

您对该主题有任何其他解决方案/想法/经验吗?

感谢您的大力帮助。

2 个答案:

答案 0 :(得分:4)

查看levenshteinsimilar_text功能,让您的生活更轻松:

编辑:@Toto指出那些可能不适合这个应用程序,请参阅下面的评论。

答案 1 :(得分:0)

Needleman-Wunsch在一个应用程序中工作得很好,我必须匹配不同人给同一个东西的名字。