存储差异信息元组的有效方法,无需冗余

时间:2014-11-30 12:50:09

标签: python encoding compression google-diff-match-patch

我有这个主要文字How can I run java script from a local folder?

diff.diff_main(diff(), "How can I run java script from a local folder?","How can I run Javascript from a local folder?")

返回[(0, 'How can I run '), (-1, 'j'), (1, 'J'), (0, 'ava'), (-1, ' '), (0, 'script from a local folder?')]

这个短字符串不是一个很大的问题,但它有更大的字符串,如40,000个字符,这在我的应用程序中很常见。我选择这个短字符串是为了清晰和可读性,但是我正在寻找一种方法来存储文本位置(从开始位置到结束位置)而不是实际文本。它最终将与原始文本相匹配。

示例,,而不是[(0, 'How can I run '), (-1, 'j'), (1, 'J'), (0, 'ava'), (-1, ' '), (0, 'script from a local folder?')]我会[(0, '0,14'), (-1, 'j'), (1, 'J'), (0, '15,18'), (-1, ' '), (0, '19,44')]

它将从元组中编码的位置解码,例如0,14从位置0到14或How can I run ,,, 15,18从位置15到18的原始文本或ava和等,,

它可以像originaltext[0:14]稍后,

一样重新审核

我试过这个非常接近

a=[(0, 'How can I run '), (-1, 'j'), (1, 'J'), (0, 'ava'), (-1, ' '), (0, 'script from a local folder?')]

b='How can I run java script from a local folder?'

result={}

positioncount = 0
for x, y in enumerate(a):
    if y[0] == 0:
        if positioncount == 0:
            result[x]={y[0]:len(y[1])}
            positioncount+=len(y[1])
        else:
            result[x]={y[0]:(len(y[1])+positioncount,len(y[1]))}
    else:
        result[x]={y[0]:y[1]}
        positioncount-=len(y[1])

但是print result给了我{0: {0: 14}, 1: {-1: 'j'}, 2: {1: 'J'}, 3: {0: (15, 3)}, 4: {-1: ' '}, 5: {0: (38, 27)}}并且不正确,因为它应该给{0: {0: 14}, 1: {-1: 'j'}, 2: {1: 'J'}, 3: {0: (15, 18)}, 4: {-1: ' '}, 5: {0: (19, 44)}}

我在这里做错了什么?无论如何要做到这一点吗?如果您有任何其他选择,我很高兴收到它!谢谢。

1 个答案:

答案 0 :(得分:0)

为什么要创建运行索引作为键的字典? 试试这个:

a=[(0, 'How can I run '), (-1, 'j'), (1, 'J'), (0, 'ava'), (-1, ' '), (0, 'script from a local folder?')]

b='How can I run java script from a local folder?'

result = []

position = 0
for v, txt in a:
    if v == 0:
        result.append((0, (position, position+len(txt))))
    else:
        result.append((v, txt))
    if v<=0:
        position += len(txt)