假设我有一个十六进制的文件,我需要在其中搜索重复的字节集。在python中执行此操作的最佳方法是什么?
现在我正在做的是将所有内容视为带有re模块的字符串,这非常慢并且不是正确的方法。我无法弄清楚如何分割和比较二进制数据。
for i in range(int(len(data))):
string = data[i:i+16]
pattern = re.compile(string)
m = pattern.findall(data)
count += 1
if len(m) > 1:
k = [str(i), str(len(m))]
t = ":".join(k)
output_file.write(' {}'.format(t))
else:
continue
为了确保没有混淆,data
这里只是来自open('pathtofile/file', 'r')
的大量十六进制数据