用于计算两个文本块之间的百分比差异的算法

时间:2010-06-24 03:10:03

标签: python algorithm string

我一直在研究如何找到有效的解决方案。我研究了差异引擎(谷歌的差异匹配补丁,python的差异)和一些最长的常见链算法。

我希望能为您提供有关如何解决此问题的建议。您想推荐哪种算法或库?

感谢。

4 个答案:

答案 0 :(得分:5)

我不知道“最长常见[[chain?substring?]]”与“百分比差异”有什么关系,特别是在评论中看到你期望两个字符串之间的差异非常小中间有一个字符(因此它们最长的公共子字符串大约是字符串长度的一半)。

忽略“最长常见”的陌生感,并将“百分比差异”定义为字符串之间的编辑距离除以最大长度(当然是100次;-),那么:

def levenshtein_distance(first, second):
    """Find the Levenshtein distance between two strings."""
    if len(first) > len(second):
        first, second = second, first
    if len(second) == 0:
        return len(first)
    first_length = len(first) + 1
    second_length = len(second) + 1
    distance_matrix = [[0] * second_length for x in range(first_length)]
    for i in range(first_length):
       distance_matrix[i][0] = i
    for j in range(second_length):
       distance_matrix[0][j]=j
    for i in xrange(1, first_length):
        for j in range(1, second_length):
            deletion = distance_matrix[i-1][j] + 1
            insertion = distance_matrix[i][j-1] + 1
            substitution = distance_matrix[i-1][j-1]
            if first[i-1] != second[j-1]:
                substitution += 1
            distance_matrix[i][j] = min(insertion, deletion, substitution)
    return distance_matrix[first_length-1][second_length-1]

def percent_diff(first, second):
    return 100*levenshtein_distance(a, b) / float(max(len(a), len(b)))

a = "the quick brown fox"
b = "the quick vrown fox"
print '%.2f' % percent_diff(a, b)

Levenshtein函数来自Stavros' blog。在这种情况下的结果将是5.26(差异百分比)。

答案 1 :(得分:2)

除了difflib和其他常见的子序列库之外,如果它是自然语言文本,您可能会考虑词干,将词语规范化为词根形式。您可以在Natural Language Toolkit(http://www.nltk.org/)库中找到几个实现。您还可以使用N-Grams(http://en.wikipedia.org/wiki/N-gram)更加语义地比较自然语言文本的blob。

答案 2 :(得分:1)

最长的常见链?也许这会有所帮助:http://en.wikipedia.org/wiki/Longest_common_subsequence_problem

答案 3 :(得分:0)

link text另一个感兴趣的领域可能是这里描述的Levenshtein距离。