如何从SFTPFile重构readChunk以停止使用inlineCallbacks?

时间:2017-12-28 11:16:51

标签: python twisted sftp

我试图通过ISFTPFile读取文件,我想避免在这种情况下使用@inlinceCallbacks

或许有更好的方式来读/写ISFTPFile

@defer.inlineCallbacks
def calculate_checksum(open_file):
    hasher = hashlib.sha256()

    offset = 0
    try:
        while True:
            d = yield open_file.readChunk(offset, chunk_size)
            offset += chunk_size
            hasher.update(d)

    except EOFError:
        pass

    target_checksum = hasher.hexdigest()
    defer.returnValue(target_checksum)


client_file = client.openFile(
    filename=target, flags=FXF_READ, attrs={})
checksum = yield client_file.addCallback(calculate_checksum)

1 个答案:

答案 0 :(得分:1)

您实际上想要将sha256.update映射到文件块的迭代器:

hasher = hashlib.sha256()
chunks = read_those_chunks()
map(hasher.update, chunks)
return hasher.hexdigest()

请注意,原始calculate_checksums(使用while循环)的显式迭代现在隐藏在map内。基本上,map已经取代了迭代。

障碍是你要避免将整个文件加载到内存中的read_those_chunks(大概)。因此,作为第一步,实施该部分:

def read_those_chunks(open_file, chunk_size):
    offset = 0
    while True:
        yield open_file.readChunk(offset, chunk_size)
        offset += chunk_size

有一个生成Deferred s的生成器随后发布(或EOFError)。很遗憾,您无法在map中使用此功能。所以现在实现一个可以解决这个问题的地图:

def async_map(function, iterable):
    try:
        d = next(iterable)
    except StopIteration:
        return

    d.addCallback(function)
    d.addCallback(lambda ignored: async_map(function, iterable))
    return d

由于async_map将替换map并且map替换了原始实现中的迭代,async_map仍然负责确保我们从可迭代中访问每个块。但是,迭代(使用forwhile)与Deferred不能很好地混合(混合它们的时候通常会提取inlineCallbacks)。所以async_map不会迭代。它recurses - 迭代的常见替代方案。每个递归调用都在迭代的下一个元素上运行,直到不再存在(或直到Deferred失败,这种情况会因EOFError而发生)。

递归比使用Deferred的迭代效果更好,因为递归操作函数和函数调用。 Deferred可以处理函数和函数调用 - 将函数传递给addCallbackDeferred最终会调用该函数。迭代由一小部分函数组成(有时称为"块"或"套件")Deferred无法处理这些函数。您无法将阻止传递给addCallback

现在使用这两个来创建在计算摘要时触发的Deferred

def calculate_checksum(open_file, chunk_size):
    hasher = hashlib.sha256()
    chunks = read_those_chunks(open_file, chunk_size)
    d = async_map(hasher.update, chunks)
    d.addErrback(lambda err: err.trap(EOFError))
    d.addCallback(lambda ignored: hasher.hexdigest())
    return d

您可能还注意到async_mapmap的不同之处在于它不会生成它所进行的函数调用的结果列表。也许它更像reduce

def async_reduce(function, iterable, lhs):
    try:
        d = next(iterable)
    except StopIteration:
        return lhs

    d.addCallback(lambda rhs: function(lhs, rhs))
    d.addCallback(lambda lhs: async_reduce(function, iterable, lhs))
    return d

当然,它仍然是递归的而不是迭代的。

用于计算hexdigest的缩减函数如下:

def update_hash(hasher, s):
    hasher.update(s)
    return hasher

所以calculate_checksum变为:

def calculate_checksum(open_file, chunk_size):
    chunks = read_those_chunks(open_file, chunk_size)
    d = async_reduce(update_hash, hashlib.sha256(), "")
    d.addErrback(lambda err: err.trap(EOFError))
    d.addCallback(lambda hasher: hasher.hexdigest())
    return d

对于没有hasher关闭而言更好一些。

当然,还有许多其他方法可以重写此功能以避免inlineCallbacks。我选择的方式并没有消除发电机功能的使用,所以如果你想要逃脱它并没有真正帮助它。如果是这样,也许你可以像我在这里做的那样将问题分解成不同的部分,其中没有一部分涉及发电机。