我希望通过将信号量传递给函数来同步对python multiprocessing.Pool
中多个worker的共享资源的访问。这是一些伪代码。
def do_work(payload, semaphore):
with semaphore:
access_the_shared_resource(payload)
函数do_work
在库中定义,因此我无法在本地范围内定义函数可以继承的信号量。我也无法使用functools.partial
传递信号量,因为multiprocessing
会尝试腌制不允许的信号量。似乎有用的是使用multiprocessing.Manager
创建Semaphore
的代理:
manager = multiprocessing.Manager()
semaphore = manager.Semaphore()
with multiprocessing.Pool() as pool:
results = pool.map(functools.partial(do_work, semaphore=semaphore), payloads)
这是最好的方法还是我错过了明显的解决方案?
答案 0 :(得分:0)
您唯一的另一个选择是使用initializer
和initargs
在池创建时将常规multiprocessing.Semaphore
传递给每个工作进程,并将其用作全局变量:
semaphore = None
def do_work(payload):
with semaphore:
return payload
def init(sem):
global semaphore
semaphore = sem
if __name__ == "__main__":
sem = multiprocessing.Semaphore()
with multiprocessing.Pool(initializer=init, initargs=(sem,)) as p:
results = p.map(do_work, payloads)
您在父级中定义的全局semaphore
变量将在每个子进程中设置为multiprocessing.Semaphore()
。
使用manager.Semaphore()
很好,但它确实需要产生额外的Python进程。