Python Multiprocessing.Process如何重用一个进程?

时间:2014-05-14 09:24:51

标签: python multithreading multiprocessing

我使用python多处理模块并行运行一些长时间运行的任务。我使用start()方法来运行作业,但是一旦作业返回,我想再次运行它们。

是否可以重复使用我创建的流程?或者我每次要运行作业时都必须创建一个新的Process对象吗?

pyhton docs中有这一部分建议我不能使用start()方法多于一个,但也许有人知道重用该实例的另一种方法:

start()

启动流程的活动。

每个进程对象最多只能调用一次。 它安排在一个单独的进程中调用对象的run()方法。

这是我的Process类版本:

class Process(multiprocessing.Process):
    def __init__(self, result_queue, MCMCinstance):
        assert isinstance(MCMCinstance, MCMC)
        multiprocessing.Process.__init__(self)
        self.result_queue = result_queue
        self.mcmc = MCMCinstance
        self.interface = C_interface(self.mcmc)
        self.burn_in = False

    def run(self):
        if self.burn_in: interface.burn_in()
        self.interface.sample(self.mcmc.options.runs)
        self.interface.update(self.mcmc)
        self.result_queue.put(self.mcmc)

然后我实例化进程并使用start()方法运行它们:

# setup the jobs and run
result_queue = multiprocessing.Queue()

mcmc1 = MCMC(options, donors, clusters)
mcmc2 = MCMC(options, donors, clusters)
mcmc3 = MCMC(options, donors, clusters)
mcmc4 = MCMC(options, donors, clusters)

p1 = Process(result_queue, mcmc1)
p2 = Process(result_queue, mcmc2)
p3 = Process(result_queue, mcmc3)
p4 = Process(result_queue, mcmc4)

jobs = [p1, p2, p3, p4]

for job in jobs:
    job.start()

results = [result_queue.get() for job in jobs]

3 个答案:

答案 0 :(得分:2)

要重用流程,您应该使用池。这样的事情应该可行,但我还没有测试过。

SENTINEL = "SENTINEL"

class Worker(object):
    def __init__(self, result_queue, MCMCinstance):
        assert isinstance(MCMCinstance, MCMC)
        self.result_queue = result_queue
        self.mcmc = MCMCinstance
        self.interface = C_interface(self.mcmc)
        self.burn_in = False

    def run(self):
        if self.burn_in: interface.burn_in()
        self.interface.sample(self.mcmc.options.runs)
        self.interface.update(self.mcmc)
        #Signal exit by putting SENTINEL in the queue 
        if True:       
            self.result_queue.put(SENTINEL)
        else:
            self.result_queue.put(self.mcmc)

def run(result_queue):
    while True:
        instance = result_queue.get(True)
        if instance == SENTINEL:
            break
        worker = Worker(result_queue, instance)
        worker.run()

if __name__ == "__main__":
    result_queue = multiprocessing.Queue()
    pool = multiprocessing.pool.Pool(3, run, (result_queue,)) # Use a pool with 5 process

    mcmc1 = MCMC(options, donors, clusters)
    mcmc2 = MCMC(options, donors, clusters)
    mcmc3 = MCMC(options, donors, clusters)
    mcmc4 = MCMC(options, donors, clusters)

    result_queue.put(mcmc1)  
    result_queue.put(mcmc2)  
    result_queue.put(mcmc3)  
    result_queue.put(mcmc4)  

    pool.close()
    pool.join()

答案 1 :(得分:1)

不,这是不可能的。在start()中有针对性的防范。

我只能推测它为什么不可重复使用,但我认为它是一种设计选择。它可能会为回收对象增加过多的逻辑,这是值得的。但我觉得它更有趣,要问为什么会如此。

虽然在阅读了过去20分钟的消息来获得它后,我可以肯定地说,只是创建一个整个python进程的分支,比创建一个新的对象实例需要更多的时间,所以它没有&#39无论如何,在性能方面都很重要。

至于你的代码,你可以稍微压缩它,你不必使用命名的Process实例,并利用列表推导。

# setup the jobs and run
result_queue = multiprocessing.Queue()

mcmc_list = [MCMC(options, donors, clusters)]*4
jobs = [Process(result_queue, mcmc) for mcmc in mcmc_list ]
for job in jobs:
    #job.debug_level = 1
    job.start()

results = [result_queue.get() for job in jobs]

#for res in results: res.traceplot(show=False)
jobs2 = [Process(result_queue, result) for result in results]

for j in jobs2:
    j.start()

results2 = [result_queue.get() for job in jobs2]

编辑: 我认为你有点误用Queue来进行流程之间的沟通,我认为你不需要这样做。要创建一个线程池,您应该使用PoolPool.map。但是我没有给出确切的代码示例,没有看到原始目标函数。我认为需要进行调整。

答案 2 :(得分:0)

就像文档说的那样,你只能调用一次.start()方法,我相信每次都要创建新进程:

# setup the jobs and run
result_queue = multiprocessing.Queue()

mcmc1 = MCMC(options, donors, clusters)
mcmc2 = MCMC(options, donors, clusters)
mcmc3 = MCMC(options, donors, clusters)
mcmc4 = MCMC(options, donors, clusters)

p1 = Process(result_queue, mcmc1)
p2 = Process(result_queue, mcmc2)
p3 = Process(result_queue, mcmc3)
p4 = Process(result_queue, mcmc4)

jobs = [p1, p2, p3, p4]

for job in jobs:
    #job.debug_level = 1
    job.start()

results = [result_queue.get() for job in jobs]

#for res in results: res.traceplot(show=False)
p5 = Process(result_queue, results[0])
p6 = Process(result_queue, results[1])
p7 = Process(result_queue, results[2])
p8 = Process(result_queue, results[3])

jobs2 = [p5, p6, p7, p8]

for j in jobs2:
    j.start()


results2 = [result_queue.get() for job in jobs2]