python multiprocessing .join()死锁依赖于worker函数

时间:2017-08-29 21:17:00

标签: python join multiprocessing python-multiprocessing

我正在使用multiprocessing python库来生成4个Process()对象来并行化cpu密集型任务。任务(来自这个伟大的article的灵感和代码)是计算列表中每个整数的素因子。

main.py:

import random
import multiprocessing
import sys

num_inputs  = 4000
num_procs   = 4
proc_inputs = num_inputs/num_procs
input_list  = [int(1000*random.random()) for i in xrange(num_inputs)]

output_queue = multiprocessing.Queue()
procs        = []
for p_i in xrange(num_procs):
  print "Process [%d]"%p_i
  proc_list = input_list[proc_inputs * p_i:proc_inputs * (p_i + 1)]
  print " - num inputs: [%d]"%len(proc_list)

  # Using target=worker1 HANGS on join
  p = multiprocessing.Process(target=worker1, args=(p_i, proc_list, output_queue))
  # Using target=worker2 RETURNS with success
  #p = multiprocessing.Process(target=worker2, args=(p_i, proc_list, output_queue))

  procs.append(p)
  p.start()

for p in jobs:
  print "joining ", p, output_queue.qsize(), output_queue.full()
  p.join()
  print "joined  ", p, output_queue.qsize(), output_queue.full()

print "Processing complete."
ret_vals = []
while output_queue.empty() == False:
    ret_vals.append(output_queue.get())
print len(ret_vals)
print sys.getsizeof(ret_vals)

观察:

  • 如果每个进程的目标是函数worker1,对于大于4000个元素的输入列表,主线程卡在.join()上,等待生成的进程终止并且永远不会返回。 / LI>
  • 如果每个进程的目标是函数worker2,对于相同的输入列表,代码工作正常,主线程返回。

这对我来说非常困惑,因为worker1worker2(见下文)之间的唯一区别是前者在Queue中插入单个列表,而后者插入单个列表每个流程的列表清单。

为什么使用worker1而不使用worker2目标会出现死锁? 不应该(或两者都不)超越Multiprocessing Queue maxsize limit is 32767

worker1 vs worker2:

def worker1(proc_num, proc_list, output_queue):
    '''worker function which deadlocks'''  
    for num in proc_list:
        output_queue.put(factorize_naive(num))

def worker2(proc_num, proc_list, output_queue):
    '''worker function that works'''
    workers_stuff = []

    for num in proc_list:
        workers_stuff.append(factorize_naive(num))
    output_queue.put(workers_stuff)

在SO上有类似问题的很多,但我相信这些问题的核心明显不同于所有这些问题。

相关链接:

1 个答案:

答案 0 :(得分:3)

文档警告说:

  

警告如上所述,如果子进程已将项目放入队列(并且它未使用JoinableQueue.cancel_join_thread),则在将所有缓冲的项目刷新到管道之前,该进程不会终止。   这意味着,如果您尝试加入该进程,则可能会遇到死锁,除非您确定已经使用了已放入队列的所有项目。类似地,如果子进程是非守护进程,则父进程在尝试加入其所有非守护进程子进程时可能会在退出时挂起。

虽然Queue似乎是无限制的,但在封面下排队的项目会缓存在内存中,以避免进程间管道过载。在刷新内存缓冲区之前,进程无法正常结束。您的worker1()在队列中放置的项目worker2()更多,而这就是它的全部内容。请注意,在实现转换为内存缓冲之前可以排队的项目数量未定义:它可能因操作系统和Python版本而异。

正如文档建议的那样,通常的方法是在{/ 1>尝试.get()之前.join() 关闭队列之前的所有项目 过程。正如您所发现的那样,是否必要这样做取决于每个工作进程在队列中放置了多少项的未定义方式。