我需要xor 2字节对象。我使用这段代码:
def bxor(b1, b2): # use xor for bytes
result = b""
for b1, b2 in zip(b1, b2):
result += bytes([b1 ^ b2])
return result
当字节对象很小时,它工作正常,但如果我xor大对象(几MB)它需要很长时间(几个小时)。我怎样才能让它更快?
答案 0 :(得分:6)
当XORing bytes
个对象每个包含一百万个元素时,此循环创建大约一百万个临时bytes
个对象,并复制每个字节,平均大约50万次一个临时bytes
到下一个。请注意,字符串存在完全相同的问题(在许多其他语言中也是如此)。字符串解决方案是创建一个字符串部分列表,并在末尾使用''.join
来有效地连接它们。您可以使用字节执行相同的操作:
def bxor(b1, b2): # use xor for bytes
parts = []
for b1, b2 in zip(b1, b2):
parts.append(bytes([b1 ^ b2]))
return b''.join(parts)
或者,您可以使用可变的bytearray
,因此可以避免此问题。它还允许您不在每次迭代时分配新的bytes
对象,您只需附加字节/ int
。
def bxor(b1, b2): # use xor for bytes
result = bytearray()
for b1, b2 in zip(b1, b2):
result.append(b1 ^ b2)
return result
如果您需要/需要return bytes(result)
对象,也可以bytes
。
答案 1 :(得分:5)
使用bytearray
已经更快批次:
def bxor(b1, b2):
result = bytearray(b1)
for i, b in enumerate(b2):
result[i] ^= b
return bytes(result)
快速timeit
比较:
>>> import timeit
>>> b1, b2 = b'abcdefg' * 10, b'aaaaaaa' * 10
>>> timeit.timeit('it(b1, b2)', 'from __main__ import b1, b2, bxor as it', number=10000)
0.9230150280000089
>>> timeit.timeit('it(b1, b2)', 'from __main__ import b1, b2, bxor_ba as it', number=10000)
0.16270576599890774
这可以避免为所有连接创建新的bytes
个对象。
b''.join()
方法proposed by delnan并不比原始版本好:
>>> timeit.timeit('it(b1, b2)', 'from __main__ import b1, b2, bxor_join as it', number=10000)
0.9936718749995634
使用大于100倍的字节串重新运行:
>>> b1, b2 = b'abcdefg' * 1000, b'aaaaaaa' * 1000
>>> timeit.timeit('it(b1, b2)', 'from __main__ import b1, b2, bxor as it', number=1000)
11.032563796999966
>>> timeit.timeit('it(b1, b2)', 'from __main__ import b1, b2, bxor_join as it', number=1000)
9.242204494001271
>>> timeit.timeit('it(b1, b2)', 'from __main__ import b1, b2, bxor_ba as it', number=1000)
1.762020197998936
表明bytes.join()
比重复连接更快。
最后700万字节的运行,重复10次,只有bytearray
版本,我对其他版本没有耐心了:
>>> b1, b2 = b'abcdefg' * 1000000, b'aaaaaaa' * 1000000
>>> timeit.timeit('it(b1, b2)', 'from __main__ import b1, b2, bxor_ba as it', number=10)
16.18445999799951
答案 2 :(得分:5)
在另一个答案中添加这个,因为它是一个:
如果你想要比给出的“手动”方法更快的东西,总会有Numpy:
import numpy
def bxor_numpy(b1, b2):
n_b1 = numpy.fromstring(b1, dtype='uint8')
n_b2 = numpy.fromstring(b2, dtype='uint8')
return (n_b1 ^ n_b2).tostring()
而且很快:
first_random = urandom(100000)
second_random = urandom(100000)
min(Timer(partial(bxor_inplace, first_random, second_random)).repeat(10, 100))
#>>> 1.5381054869794752
min(Timer(partial(bxor_append, first_random, second_random)).repeat(10, 100))
#>>> 1.5624085619929247
min(Timer(partial(bxor_numpy, first_random, second_random)).repeat(10, 100))
#>>> 0.009930026979418471
所以它比这里发布的最佳替代品快150倍。
答案 3 :(得分:1)
Martijn Pieters的时间与我的有点不同:
def bxor_add(b1, b2): # use xor for bytes
result = b""
for b1, b2 in zip(b1, b2):
result += bytes([b1 ^ b2])
return result
def bxor_inplace(b1, b2):
result = bytearray(b1)
for i, b in enumerate(b2):
result[i] ^= b
return bytes(result)
def bxor_join(b1, b2): # use xor for bytes
parts = []
for b1, b2 in zip(b1, b2):
parts.append(bytes([b1 ^ b2]))
return b''.join(parts)
def bxor_append(b1, b2): # use xor for bytes
result = bytearray()
for b1, b2 in zip(b1, b2):
result.append(b1 ^ b2)
return bytes(result)
#>>>
from os import urandom
from timeit import Timer
from functools import partial
first_random = urandom(200000)
second_random = urandom(200000)
Timer(partial(bxor_add, first_random, second_random)).timeit(1)
#>>> 1.3261873809969984
Timer(partial(bxor_inplace, first_random, second_random)).timeit(1)
#>>> 0.03055390200461261
Timer(partial(bxor_join, first_random, second_random)).timeit(1)
#>>> 0.15852201101370156
Timer(partial(bxor_append, first_random, second_random)).timeit(1)
#>>> 0.030534288001945242
first_random = urandom(10000000)
second_random = urandom(10000000)
Timer(partial(bxor_inplace, first_random, second_random)).timeit(1)
#>>> 1.5432947289955337
Timer(partial(bxor_join, first_random, second_random)).timeit(1)
#>>> 7.90503858300508
Timer(partial(bxor_append, first_random, second_random)).timeit(1)
#>>> 1.5145326450001448
为了清晰度和速度,我会使用append
版本。
为了澄清,我不认为append
方法比inplace
版本快得多;我只是觉得它更简单一点。
然而,因为它被要求:
first_random = urandom(100000)
second_random = urandom(100000)
min(Timer(partial(bxor_inplace, first_random, second_random)).repeat(10, 100))
#>>> 1.5381054869794752
min(Timer(partial(bxor_append, first_random, second_random)).repeat(10, 100))
#>>> 1.5196998479950707