为什么这个python正则表达式返回错误的字符串

时间:2011-04-22 08:00:53

标签: python regex crc32

下面我有一段代码应该用另一个字符串替换一个字符串,但似乎没有。我不是蟒蛇或正则表达专家,任何人都可以告诉我为什么这可能会出错。

def ReplaceCRC( file_path ):
    file = open(file_path,'r+');
    file_str = file.read()
    if( file_str <> '' ):
         crc_list        = re.findall(r'_CalcCRC[(]\s*"\w+"\s*[)]', file_str);
         strs_to_crc     = []
         new_crc_list    = []
         if( crc_list ):
              for crc in crc_list:
                   quote_to_crc    = re.search(r'"\w+"', crc);
                   str_to_crc      = re.search(r'\w+', quote_to_crc.group() ).group();
                   final           = hex(CalcCRC( str_to_crc ))[:2]
                   value           = '%08X' % CalcCRC( str_to_crc )
                   final           = final + value.upper()
                   final_crc       = Insert( crc, ', ' + final + ' ', -1)
                   new_crc_list.append( final_crc )
              if( new_crc_list <> [] ):
                   for i in range(len(crc_list)):
                       print crc_list[i]
                       print new_crc_list[i]
                       term = re.compile( crc_list[i] );
                       print term.sub( new_crc_list[i], file_str );

这是它正在运行的文件:

printf( "0x%08X\n", _CalcCRC("THIS_IS_A_CRC") );
printf( "0x%08X\n", _CalcCRC("PATIENT_ZERO") );

这是输出

_CalcCRC("THIS_IS_A_CRC")
_CalcCRC("THIS_IS_A_CRC", 0x97DFEAC9 )
printf( "0x%08X\n", _CalcCRC("THIS_IS_A_CRC") );
printf( "0x%08X\n", _CalcCRC("PATIENT_ZERO") );

_CalcCRC("PATIENT_ZERO")
_CalcCRC("PATIENT_ZERO", 0x0D691C21 )
printf( "0x%08X\n", _CalcCRC("THIS_IS_A_CRC") );
printf( "0x%08X\n", _CalcCRC("PATIENT_ZERO") );

它应该做的是找到CRC字符串,计算该值,然后在原始字符串中放置一个字符串。我一直在尝试一些东西,但似乎没什么用。

3 个答案:

答案 0 :(得分:1)

不是你的问题,但这3行很棒:

final           = hex(CalcCRC( str_to_crc ))[:2]
value           = '%08X' % CalcCRC( str_to_crc )
final           = final + value.upper()

假设CalcCRC返回非负整数(例如12345567890

无论输入如何,第1行都将final设置为“0x”!

>>> hex(1234567890)
'0x499602d2'
>>> hex(1234567890)[:2]
'0x'

第2行重复调用CalcCRC!

>>> value           = '%08X' % 1234567890
>>> value
'499602D2'

请注意,value 已经大写!

在第3行之后,final变为'0x499602D2'

由于value未再次使用,整个事情可以替换为

final = '0x%08X' % CalcCRC(str_to_crc)

来自Circumlocution City的更多内容

这些行:

quote_to_crc    = re.search(r'"\w+"', crc);
str_to_crc      = re.search(r'\w+', quote_to_crc.group() ).group();

可以替换为以下之一:

str_to_crc = re.search(r'“\ w +”',crc).group()[1:-1] str_to_crc = re.search(r'“(\ w +)”',crc).group(1)

答案 1 :(得分:0)

快速查看真实答案:

您需要(除其他外)使用re.escape()....

term = re.compile(re.escape(crc_list[i]))

并且上一个if的缩进看起来已经塞满了。

...晚餐后更多: - )

餐后更新

你对整个文件进行3次传递,只有一次会完成。除了减少大量混乱外,主要的创新是使用re.sub功能,允许替换为函数而不是字符串。

import re
import zlib

def CalcCRC(s):
    # This is an example. It doesn't produce the same CRC as your examples do.
    return zlib.crc32(s) & 0xffffffff

def repl_func(mobj):
    str_to_crc = mobj.group(2)
    print "str_to_crc:", repr(str_to_crc)
    crc = CalcCRC(str_to_crc)
    # If my guess about Insert(s1, s2, n) was wrong,
    # adjust the ollowing statement.
    return '%s"%s", 0x%08X%s' % (mobj.group(1), mobj.group(2), crc, mobj.group(3))

def ReplaceCRC(file_handle):
    regex = re.compile(r'(_CalcCRC[(]\s*)"(\w+)"(\s*[)])')
    for line in file_handle:
        print "line:", repr(line)
        line2 = regex.sub(repl_func, line)
        print "line2:", repr(line2)
    return

if __name__ == "__main__":
    import sys, cStringIO
    args = sys.argv[1:]
    if args:
        f = open(args[0], 'r')
    else:
        f = cStringIO.StringIO(r"""
printf( "0x%08X\n", _CalcCRC("THIS_IS_A_CRC") )
other_stuff()
printf( "0x%08X\n", _CalcCRC("PATIENT_ZERO") )
""")
    ReplaceCRC(f)

运行没有args的脚本的结果:

line: '\n'
line2: '\n'
line: 'printf( "0x%08X\\n", _CalcCRC("THIS_IS_A_CRC") )\n'
str_to_crc: 'THIS_IS_A_CRC'
line2: 'printf( "0x%08X\\n", _CalcCRC("THIS_IS_A_CRC", 0x98ABAC4B) )\n'
line: 'other_stuff()\n'
line2: 'other_stuff()\n'
line: 'printf( "0x%08X\\n", _CalcCRC("PATIENT_ZERO") )\n'
str_to_crc: 'PATIENT_ZERO'
line2: 'printf( "0x%08X\\n", _CalcCRC("PATIENT_ZERO", 0x76BCDA4E) )\n'

答案 2 :(得分:0)

这是你想要的吗? :

import re

def ripl(mat):
    return '%s, 0x%08X' % (mat.group(1),CalcCRC(mat.group(2)))

regx = re.compile(r'(_CalcCRC[(]\s*"(\w+)"\s*[)])')


def ReplaceCRC( file_path, regx = regx, ripl = ripl ):
    with open(file_path,'r+') as f:
        file_str = f.read()
        print file_str,'\n'
        if file_str:
             file_str = regx.sub(ripl,file_str)
             print file_str
             f.seek(0,0)
             f.write(file_str) 
             f.truncate()

修改

我忘了指令f.truncate(),非常重要,否则如果重写的内容比初始内容短,它仍然是尾巴

编辑2

John Machin,

没有错,我的上述解决方案是对的,它给出了

printf( "0x%08X\n", _CalcCRC("THIS_IS_A_CRC"), 0x97DFEAC9 ); 
printf( "0x%08X\n", _CalcCRC("PATIENT_ZERO"), 0x0D691C21 );

自你发表评论以来,我没有改变它。我认为我首先发布了一个不正确的解决方案(因为我执行了一些不同的测试以验证某些行为,你知道,我有时会混淆我的文件和代码),然后你复制了这个不正确的代码来尝试它,然后我意识到有一个错误并纠正了代码,然后你发布了你的评论而没有注意到我已经纠正了。我想象没有其他原因造成这种混乱。

顺便说一下,为了获得相同的结果,在定义 regx 的模式中甚至不需要两个组,仅一个就足够了。以下regxripl()也适用:

regx = re.compile(r'_CalcCRC\(\s*"(\w+)"\s*\)')
# I prefer '\(' to '[(]', and same for '\)' instead of '[)]'

def ripl(mat):
    return '%s, 0x%08X' % (mat.group(),CalcCRC(mat.group(1)))

但仍存在不确定性。我们的每一个结果都是明智的,相对于乔的不准确的措辞。那么,他想要什么作为精确的结果呢? :必须将值 0x97DFEAC9 插入到CalcCRC("THIS_IS_A_CRC")中,如同结果中一样,或者CalcCRC("THIS_IS_A_CRC")之后是否像我的一样?

总而言之,我确实希望你能获得一个可以运行的代码:我定义了一个我自己的函数 CalcCRC(),只包含在if x=="THIS_IS_A_CRC": return 0x97DFEAC9和{{1}中};我通过在他的问题中看到Joe所期望的结果来选择这些关联。

现在,关于你的讨厌的肯定,我的“关于重新定义功能的观点完全是胡说八道”,我想我没有解释我的意思。将正则表达式 regx 和函数 ripl()作为函数 ReplaceCRC()的参数的默认参数会导致:对象<在执行函数 ReplaceCRC()的定义时,仅创建一次strong> regx 和 ripl()。因此,如果在执行中多次应用 ReplaceCRC(),则不会重新创建这些对象。我不知道在执行Joe的程序期间是否真的多次调用函数 ReplaceCRC(),但我认为将此功能放在代码中以防它可能有用是一个好习惯。也许,我应该在我的回答中强调这一点而不是评论来证明我的代码相对于你的代码。但是我试图限制我倾向于写太长时间的答案。

这些解释是否澄清了这些要点并使您的烦恼得到缓解?