如何只使用一次传递创建文件的多个哈希?

时间:2009-02-11 16:17:39

标签: python hash

如何从文件中获取MD5,SHA和其他哈希值,但只进行一次传递?我有100mb文件,所以我讨厌多次处理这些100MB文件。

3 个答案:

答案 0 :(得分:15)

或许这样的事情?

>>> import hashlib
>>> hashes = (hashlib.md5(), hashlib.sha1())
>>> f = open('some_file', 'r')
>>> for line in f:
...     for hash in hashes:
...         hash.update(line)
... 
>>> for hash in hashes:
...     print hash.name, hash.hexdigest()

或循环遍历f.read(1024)或类似的东西以获得固定长度的块

答案 1 :(得分:8)

以下是使用@ʞɔıu's answer修改后的@Jason S' suggestion

from __future__ import with_statement
from hashlib import md5, sha1

filename = 'hash_one-pass.py'

hashes = md5(), sha1()
chunksize = max(4096, max(h.block_size for h in hashes))
with open(filename, 'rb') as f:
    while True:
        chunk = f.read(chunksize)
        if not chunk:
            break
        for h in hashes:
            h.update(chunk)

for h in hashes:
    print h.name, h.hexdigest()

答案 2 :(得分:3)

我不懂Python,但我熟悉哈希计算。

如果您手动处理文件,只需一次读取一个块(256字节或4096字节或其他),并传递每个数据块以更新每个算法的散列。 (你必须在开始时初始化状态并在结束时完成状态。)