如何在google-diff-match-patch中进行差异时忽略某些字符?

时间:2012-09-25 07:46:15

标签: nlp diff text-processing

我正在使用google-diff-match-patch来比较自然语言中的纯文本。

如何让google-diff-match-patch忽略某些字符? (一些微小的差异,我不在乎。)

例如,给定text1:

give me a cup of bean-milk. Thanks.

和text2:

please give mom a cup of bean milk!  Thank you.

(请注意,“谢谢你”之前有两个空格字符。)

google-diff-match-patch输出如下内容:

[please] give m(e)[om] a cup of bean(-)[ ]milk(.)[!] Thank(s)[ you].

似乎google-diff-match-patch只会忽略不同数量的空格。

如何告诉google-diff-match-patch也忽略[-.!]等字符?

预期结果将是

[please] give m(e)[om] a cup of bean-milk. Thank(s)[ you].

感谢。

1 个答案:

答案 0 :(得分:1)

google-diff-match-patch可以输出元组列表

第一个元素指定它是插入(1),删除(-1)还是等于(0)。第二个元素指定受影响的文本。

例如:

diff_main("Good dog", "Bad dog") => [(-1, "Goo"), (1, "Ba"), (0, "d dog")]

因此我们只需要过滤此列表。

Python中的示例代码:

Ignored_marks = re.compile('[ ,\.;:!\'"?-]+$')

def unmark_minor_diffs(diffs): #diffs are list of tuples produced by google-diff-match-patch

  cooked_diffs = []
  for (op, data) in diffs: 
  if not Ignored_marks.match(data):
    cooked_diffs.append((op, data))
  else:
    if op in (0, -1):
      cooked_diffs.append((0, data))
  return cooked_diffs