计算文本B中文本A的数量的算法?

时间:2013-05-03 08:58:03

标签: algorithm text language-agnostic text-comparison

我需要计算一个文本块(A)在另一个文本块(B)中的位置。像soundex这样的简单算法并没有为我提供很好的结果,因为文本B中有其他文本,而不是/不应该在文本A中,这会抛出我的数字。我需要确保A的某个百分比在B之内,并忽略对B的添加。

我首先想到的一个简单的算法可能会在我的案例中运行得很好,就是将A分成句子,记下句子的总数,然后在B中搜索每个句子的实例提供百分比。虽然这应该工作但感觉非常hacky,并且我确信有人比我设计的算法更聪明,以便在类似的原则上提供更好的计算。

1 个答案:

答案 0 :(得分:0)

Longest Common Subsequence看起来最适合您的目的。