假设我有一个__next__()
函数有点昂贵的生成器,我想尝试并行化调用。我在哪里投入平行化?
稍微具体一点,请考虑以下示例:
# fast, splitting a file for example
raw_blocks = (b for b in block_generator(fin))
# slow, reading blocks, checking values ...
parsed_blocks = (block_parser(b) for b in raw_blocks)
# get all parsed blocks into a data structure
data = parsedBlocksToOrderedDict(parsed_blocks)
最基本的事情是将第二行更改为执行并行化的内容。是否有一些发生器魔法允许人们并行解包发电机(在3号线)?并行呼叫__next__()
?
答案 0 :(得分:4)
没有。您必须按顺序调用next()
,因为任何非平凡的生成器的下一个状态都是由其当前状态决定的。
def gen(num):
j=0
for i in xrange(num):
j += i
yield j
没有办法将调用并行化到上面的生成器而不知道它在每个点产生一个值的状态。但如果你知道,你就不需要运行它。
答案 1 :(得分:3)
假设要求block_parser(b)
并行执行,您可以尝试使用multiprocessing.Pool:
import multiprocessing as mp
pool = mp.Pool()
raw_blocks = (b for b in block_generator(fin))
parsed_blocks = pool.imap(block_parser,raw_blocks)
data = parsedBlocksToOrderedDict(parsed_blocks)
请注意:
list(parsed_blocks)
完全适合记忆,
然后使用pool.map
可能比pool.imap
快得多。raw_blocks
中的项目和block_parse
的返回值
必须是可选择的,因为mp.Pool
传递任务和结果
mp.Queue
。