比较python中的二进制数据切片

时间:2016-12-24 04:28:30

标签: python performance binary

假设我有一个十六进制的文件,我需要在其中搜索重复的字节集。在python中执行此操作的最佳方法是什么?

现在我正在做的是将所有内容视为带有re模块的字符串,这非常慢并且不是正确的方法。我无法弄清楚如何分割和比较二进制数据。

for i in range(int(len(data))):
    string = data[i:i+16]
    pattern = re.compile(string)
    m = pattern.findall(data)
    count += 1
    if len(m) > 1:
        k = [str(i), str(len(m))]
        t = ":".join(k)
        output_file.write(' {}'.format(t))
    else:
        continue

为了确保没有混淆,data这里只是来自open('pathtofile/file', 'r')的大量十六进制数据

0 个答案:

没有答案