奇怪的python的hashlib.md5行为,每次都有不同的哈希值

时间:2017-04-29 15:19:59

标签: python hash

我在尝试计算字符串的md5哈希时遇到了一些非常奇怪的行为。如果我传递串联结果的字符串,则返回的哈希总是错误的(并且不同)。我找到的唯一获得真正哈希的方法是传递在创建后没有以任何方式修改的字符串。

Python 2.7.13 (v2.7.13:a06454b1afa1, Dec 17 2016, 20:42:59) [MSC v.1500 32 bit (Intel)] on win32
Type "help", "copyright", "credits" or "license" for more information.
>>> import hashlib
>>> m = hashlib.md5() 
>>> a1 = "stack"
>>> a2 = "overflow"
>>> a3 = a1 + a2
>>> a4 = str(a1 + a2)
>>> m.update("stackoverflow")
>>> m.hexdigest()
'73868cb1848a216984dca1b6b0ee37bc' //actuall hash
>>> m.update(a1 + a2)
>>> m.hexdigest()
'458b7358b9e0c3f561957b96e543c5a8'
>>> m.update(a3)
>>> m.hexdigest()
'65b0e62d4ff2d91e111ecc8f27f0e8f5'
>>> m.update(a4)
>>> m.hexdigest()
'60c3ae3dd9a2095340b2e024194bad3c'
>>> m.update(a1 + a2)
>>> m.hexdigest()
'acd4e14145d34dcb10af785badf8e73e'
>>> m.update(a1 + a2)
>>> m.hexdigest()
'03c06ca09faa26166f1096db02272b11'
>>> a1 + a2 == a1 + a2
True
>>> a1 + a2 == a3
True
>>> a3 == a4
True

我错过了什么吗?

1 个答案:

答案 0 :(得分:9)

您遗失的是hash.update() 无法替换散列数据。您不断更新哈希对象,因此您将获得连接字符串的哈希值。来自hashlib.hash.update() documentation

  

使用字符串 arg 更新哈希对象。 重复调用相当于一次调用,并连接所有参数:m.update(a); m.update(b)相当于m.update(a+b)

大胆强调我的。

因此,您没有获得单个'stackoverflow'字符串的哈希值,您首先得到的是'stackoverflow',然后是'stackoverflowstackoverflow',然后是'stackoverflowstackoverflowstackoverflow'等。每次追加另一个'stackoverflow'创建一个更长更长的字符串。这些较长的字符串都不等于原始短字符串,因此它们的哈希值也不可能相等。

为新字符串创建 new 对象,而不是:

>>> import hashlib
>>> m = hashlib.md5()
>>> m.update('stack' + 'overflow')
>>> m.hexdigest()
'73868cb1848a216984dca1b6b0ee37bc'
>>> m = hashlib.md5()   # **new** hash object
>>> m.update('stackoverflow')
>>> m.hexdigest()
'73868cb1848a216984dca1b6b0ee37bc'
>>> m = hashlib.md5()     # new object again
>>> m.update('stack')     # add the string in pieces, part 1
>>> m.update('overflow')  # and part 2
>>> m.hexdigest()
'73868cb1848a216984dca1b6b0ee37bc'

你可以轻易地制作出错误的'哈希通过发送连接数据:

>>> m = hashlib.md5()
>>> m.update('stackoverflowstackoverflow')
>>> m.hexdigest()
'458b7358b9e0c3f561957b96e543c5a8'
>>> m = hashlib.md5()
>>> m.update('stackoverflowstackoverflowstackoverflow')
>>> m.hexdigest()
'65b0e62d4ff2d91e111ecc8f27f0e8f5'
>>> m = hashlib.md5()
>>> m.update('stackoverflow' * 4)
>>> m.hexdigest()
'60c3ae3dd9a2095340b2e024194bad3c'

请注意,您还可以将第一个字符串传递到md5()函数:

>>> hashlib.md5('stackoverflow').hexdigest()
'73868cb1848a216984dca1b6b0ee37bc'

通常只有在处理数据块时才使用hash.update()方法(比如逐行读取文件或从套接字读取数据块),并且不想持有所有这些数据都在内存中。