按字词匹配更改,而不是字符

时间:2016-08-17 15:47:36

标签: python string python-3.x diff difflib

我正在使用difflib的{​​{1}}到SequenceMatcher,而不是使用get_opcodes()突出显示更改,以创建某种类型的网络css

首先,我设置一个diff,以便我认为两个字符串不同,如果整个字符串中只有3个或更多字符不同,一个接一个(min_delta表示一个真实的,遇到的delta,其总和所有单字符变化):

delta

这有助于我确定两个字符串是否真的不同。效率不高,但我认为没有更好的效果。

然后,我以相同的方式着色两个字符串之间的差异:

matcher = SequenceMatcher(source_str, diff_str)
min_delta = 3
delta = 0

for tag, i1, i2, j1, j2 in matcher.get_opcodes():
    if tag == "equal":
        continue  # nothing to capture here
    elif tag == "delete":
        if source_str[i1:i2].isspace():
            continue  # be whitespace-agnostic
        else:
            delta += (i2 - i1)  # delete i2-i1 chars
    elif tag == "replace":
        if source_str[i1:i2].isspace() or diff_str[j1:j2].isspace():
            continue  # be whitespace-agnostic
        else:
            delta += (i2 - i1)  # replace i2-i1 chars
    elif tag == "insert":
        if diff_str[j1:j2].isspace():
            continue  # be whitespace-agnostic
        else:
            delta += (j2 - j1)  # insert j2-j1 chars

return_value = True if (delta > min_delta) else False

结果看起来很难看(蓝色表示替换,绿色表示新的,红色表示删除,没有相同的表示):

example

所以,这种情况正在发生,因为for tag, i1, i2, j1, j2 in matcher.get_opcodes(): if tag == "equal": # bustling with strings, inserting them in <span>s and colorizing elif tag == "delete": # ... return_value = old_string, new_string 匹配每个字符。但是我希望它匹配每个单词(可能是围绕它们的空白),或者更令人眼花缭乱的东西,因为正如你在屏幕截图中看到的那样,第一本书实际上是在第四位。

在我看来,可以使用SequenceMatcher的{​​{1}}和isjunk参数完成某些操作,但我无法弄清楚如何为{my}编写autojunk s目的。

因此,我有两个问题

  1. 是否可以通过单词匹配?是否可以使用SequenceMatcherlambda?如果没有,可以用什么呢?

  2. 好的,这是一个必然结果,但是:如果可以通过单词进行匹配,那么我可以使用get_opcodes()摆脱肮脏的黑客攻击并尽快返回SequenceMatcher至少有一个词不同,对吗?

1 个答案:

答案 0 :(得分:2)

SequenceMatcher可以接受str列表作为输入。

您可以先将输入拆分为单词,然后使用SequenceMatcher来帮助您区分单词。那么你的彩色差异将是用词而不是用字符

>>> def my_get_opcodes(a, b):
...     s = SequenceMatcher(None, a, b)
...     for tag, i1, i2, j1, j2 in s.get_opcodes():
...         print('{:7}   a[{}:{}] --> b[{}:{}] {!r:>8} --> {!r}'.format(
...             tag, i1, i2, j1, j2, a[i1:i2], b[j1:j2]))
... 

>>> my_get_opcodes("qabxcd", "abycdf")
delete    a[0:1] --> b[0:0]      'q' --> ''
equal     a[1:3] --> b[0:2]     'ab' --> 'ab'
replace   a[3:4] --> b[2:3]      'x' --> 'y'
equal     a[4:6] --> b[3:5]     'cd' --> 'cd'
insert    a[6:6] --> b[5:6]       '' --> 'f'

# This is the bad result you currently have.
>>> my_get_opcodes("one two three\n", "ore tree emu\n")
equal     a[0:1] --> b[0:1]      'o' --> 'o'
replace   a[1:2] --> b[1:2]      'n' --> 'r'
equal     a[2:5] --> b[2:5]    'e t' --> 'e t'
delete    a[5:10] --> b[5:5]  'wo th' --> ''
equal     a[10:13] --> b[5:8]    'ree' --> 'ree'
insert    a[13:13] --> b[8:12]       '' --> ' emu'
equal     a[13:14] --> b[12:13]     '\n' --> '\n'

>>> my_get_opcodes("one two three\n".split(), "ore tree emu\n".split())
replace   a[0:3] --> b[0:3] ['one', 'two', 'three'] --> ['ore', 'tree', 'emu']

# This may be the result you want.
>>> my_get_opcodes("one two emily three ha\n".split(), "ore tree emily emu haha\n".split())
replace   a[0:2] --> b[0:2] ['one', 'two'] --> ['ore', 'tree']
equal     a[2:3] --> b[2:3] ['emily'] --> ['emily']
replace   a[3:5] --> b[3:5] ['three', 'ha'] --> ['emu', 'haha']

# A more complicated example exhibiting all four kinds of opcodes.
>>> my_get_opcodes("one two emily three yo right end\n".split(), "ore tree emily emu haha yo yes right\n".split())
replace   a[0:2] --> b[0:2] ['one', 'two'] --> ['ore', 'tree']
equal     a[2:3] --> b[2:3] ['emily'] --> ['emily']
replace   a[3:4] --> b[3:5] ['three'] --> ['emu', 'haha']
equal     a[4:5] --> b[5:6]   ['yo'] --> ['yo']
insert    a[5:5] --> b[6:7]       [] --> ['yes']
equal     a[5:6] --> b[7:8] ['right'] --> ['right']
delete    a[6:7] --> b[8:8]  ['end'] --> []

您还可以按行显示按书,或按行。您只需要准备一个可以将整个段落字符串预处理成所需差异块的函数。

例如:

  • 按行划分 - 您可能可以使用splitlines()
  • 按书籍分享 - 你可能可以实现一个剥离1.2.
  • 的功能
  • 按细分分享 - 您可以像这样([book_1, author_1, year_1, book_2, author_2, ...], [book_1, author_1, year_1, book_2, author_2, ...])投入API。然后你的着色将是按段