以下脚本生成100个大小为100000的随机词典,将每个(键,值)元组提供给队列,而一个单独的进程从队列中读取:
import multiprocessing as mp
import numpy.random as nr
def get_random_dict(_dummy):
return dict((k, v) for k, v in enumerate(nr.randint(pow(10, 9), pow(10, 10), pow(10, 5))))
def consumer(q):
for (k, v) in iter(q.get, 'STOP'):
pass
q = mp.Queue()
p = mp.Process(target=consumer, args=(q,))
p.start()
for d in mp.Pool(1).imap_unordered(get_random_dict, xrange(100)):
for k, v in d.iteritems():
q.put((k, v))
q.put('STOP')
p.join()
我原本期望内存使用率保持不变,因为当主进程提供数据时,使用者进程会从队列中提取数据。我确认数据不会累积在队列中。
但是,我监视了内存消耗,并且随着脚本的运行而不断增加。如果我将imap_unordered
替换为for _ in xrange(100): d = get_random_dict()
,那么内存消耗将保持不变。解释是什么?
答案 0 :(得分:1)
我认为主要问题是使用multiprocessing.Pool
来收集在一个进程(Pool
进程)中创建的字典,然后将它们放入主进程的队列中。我认为(我可能错了)Pool
创建了自己的一些队列,这些可能是数据累积的队列。
如果您放置一些这样的调试打印件,您可以清楚地看到:
...
def get_random_dict(_dummy):
print 'generating dict'
...
...
for d in mp.Pool(1).imap_unordered(get_random_dict, xrange(100)):
print 'next d'
...
然后你会看到这样的事情:
generating dict
generating dict
next d
generating dict
generating dict
generating dict
generating dict
generating dict
next d
...
这清楚地表明你已经在某处积累了dict
生成的那些
(可能在Pool
)的内管中。
我认为更好的解决方案是将数据放入
get_random_dict
直接到队列并放弃使用*map
函数
来自Pool
。
答案 1 :(得分:1)
Pool.imap
与imap
字面上不完全相同。它是相同的,它可以像imap
一样使用,并返回一个迭代器。但是,实施完全不同。无论迭代器的消耗速度如何,备份池都将尽可能快地完成所有给予它的作业。如果您只希望在请求时处理作业,那么使用multiprocessing
就没有意义了。不妨使用itertools.imap
并完成它。
因此,您的内存消耗增加的原因是池创建字典的速度比消费者进程消耗它们的速度快。这将是因为池从工作进程检索结果的方式是单向的(一个进程写入和处理读取),因此不需要显式同步机制。然而,Queue
是双向的 - 两个进程都可以读取和写入队列。这意味着需要在使用队列的进程之间进行显式同步,以确保它们不竞争将下一个项目添加到队列中或从队列中删除项目(从而使队列处于不一致状态)。