应用错误收集

计算文本B中文本A的数量的算法？

时间：2013-05-03 08:58:03

标签： algorithm text language-agnostic text-comparison

我需要计算一个文本块（A）在另一个文本块（B）中的位置。像soundex这样的简单算法并没有为我提供很好的结果，因为文本B中有其他文本，而不是/不应该在文本A中，这会抛出我的数字。我需要确保A的某个百分比在B之内，并忽略对B的添加。

我首先想到的一个简单的算法可能会在我的案例中运行得很好，就是将A分成句子，记下句子的总数，然后在B中搜索每个句子的实例提供百分比。虽然这应该工作但感觉非常hacky，并且我确信有人比我设计的算法更聪明，以便在类似的原则上提供更好的计算。

1 个答案:

答案 0 :(得分：0)

Longest Common Subsequence看起来最适合您的目的。