我有一个python函数,总共需要运行12次。我目前设置这个设置来使用多处理库中的池来并行运行所有这些池。通常我一次运行6,因为该功能是CPU密集型的并且并行运行12经常导致程序崩溃。当我们一次做6时,第二组6将不会开始,直到所有前6个过程完成。理想情况下,我们希望另一个(例如第7个)一旦从最初的6个批次中的一个完成就开始 - 所以6个正在同时运行,而有更多的开始。现在代码看起来像这样(它将被调用两次,将前6个元素传递到一个列表中,然后将第二个6传递给另一个列表:
from multiprocessing import Pool
def start_pool(project_list):
pool = Pool(processes=6)
pool.map(run_assignments_parallel,project_list[0:6])
所以我一直在尝试实现一个worker / queue解决方案并遇到了一些问题。我有一个看起来像这样的工人函数:
def worker(work_queue, done_queue):
try:
for proj in iter(work_queue.get, 'STOP'):
print proj
run_assignments_parallel(proj)
done_queue.put('finished ' + proj )
except Exception, e:
done_queue.put("%s failed on %s with: %s" % (current_process().name, proj, e.message))
return True
调用worker函数的代码如下:
workers = 6
work_queue = Queue()
done_queue = Queue()
processes = []
for project in project_list:
print project
work_queue.put(project)
for w in xrange(workers):
p = Process(target=worker, args=(work_queue, done_queue))
p.start()
processes.append(p)
work_queue.put('STOP')
for p in processes:
p.join()
done_queue.put('STOP')
for status in iter(done_queue.get, 'STOP'):
print status
project_list只是需要在函数“run_assignments_parallel”中运行的12个项目的路径列表。
现在编写这个函数的方法是,对于同一个进程(项目),函数被多次调用,我无法确切地告诉你发生了什么。这段代码基于我找到的一个例子,我很确定循环结构搞砸了。任何帮助都会很棒,我对此事无知感到抱歉。谢谢!
答案 0 :(得分:7)
理想情况下,我们希望另一个(例如第7个)在第一批6的一个完成后立即开始 - 这样6个一次运行,而有更多的开始。
您需要更改的是传递所有12个输入参数而不是6:
from multiprocessing import Pool
pool = Pool(processes=6) # run no more than 6 at a time
pool.map(run_assignments_parallel, project_list) # pass full list (12 items)
答案 1 :(得分:5)
您可以使用MPipe模块。
创建一个6人工作的单阶段管道,并将所有项目作为任务提供。然后只需阅读结果(在您的情况下,状态)。
from mpipe import Pipeline, OrderedStage
...
pipe = Pipeline(OrderedStage(run_assignments_parallel), 6)
for project in project_list:
pipe.put(project)
pipe.put(None) # Signal end of input.
for status in pipe.results():
print(status)