python generator:并行解压整个发生器

时间:2011-11-01 20:11:41

标签: python parallel-processing generator

假设我有一个__next__()函数有点昂贵的生成器,我想尝试并行化调用。我在哪里投入平行化?

稍微具体一点,请考虑以下示例:

# fast, splitting a file for example
raw_blocks = (b for b in block_generator(fin))
# slow, reading blocks, checking values ...
parsed_blocks = (block_parser(b) for b in raw_blocks)
# get all parsed blocks into a data structure
data = parsedBlocksToOrderedDict(parsed_blocks)

最基本的事情是将第二行更改为执行并行化的内容。是否有一些发生器魔法允许人们并行解包发电机(在3号线)?并行呼叫__next__()

2 个答案:

答案 0 :(得分:4)

没有。您必须按顺序调用next(),因为任何非平凡的生成器的下一个状态都是由其当前状态决定的。

def gen(num):
    j=0
    for i in xrange(num):
        j += i
        yield j

没有办法将调用并行化到上面的生成器而不知道它在每个点产生一个值的状态。但如果你知道,你就不需要运行它。

答案 1 :(得分:3)

假设要求block_parser(b)并行执行,您可以尝试使用multiprocessing.Pool

import multiprocessing as mp

pool = mp.Pool()

raw_blocks = (b for b in block_generator(fin))
parsed_blocks = pool.imap(block_parser,raw_blocks)
data = parsedBlocksToOrderedDict(parsed_blocks)

请注意:

  • 如果您希望list(parsed_blocks)完全适合记忆, 然后使用pool.map可能比pool.imap快得多。
  • raw_blocks中的项目和block_parse的返回值 必须是可选择的,因为mp.Pool传递任务和结果 mp.Queue