如何在Multiprocessing Pool.map中正确引用类的实例?

时间:2018-09-24 20:22:22

标签: python python-3.x python-multiprocessing

假设我定义了以下类:

class Animal:
    def __init__(self):
        self.isAlive = True

具有以下功能:

def Kill_Animal(animal):
    animal.isAlive = False

现在,如果我创建动物列表,如下所示:

AnimalsList = [Animal() for i in range(0,5)]

如果该函数应用于列表内的Animal Class的任何实例,则isAlive属性将更改为False。但是,如果我想将此功能应用于此列表并通过多处理库更改其内容,什么是正确的方法?

我尝试了以下方法:

from multiprocessing import Process, Pool

pool = Pool()
pool.map(Kill_Animal, AnimalsList[0:3])

但是,如果我尝试检查列表中所有元素的属性,结果如下:

[print(animal.isAlive) for animal in AnimalsList]

输出:True True True True True

此外,如果我尝试检查在运行时通过Pool.Map传递给Kill_Animal函数的对象的ID,则该ID与对象自己的ID不匹配。我熟悉Python的按对象调用参考,但是这里发生了什么?

1 个答案:

答案 0 :(得分:0)

研究了multiprocessing documentation之后,我了解了对该概念的误解。

使用 multiprocessing ,即使将类的实例作为参数传递,也有理由认为ID与调用方法中的ID有所不同,因为现在我们使用的是不同的ID一起进行处理,因此该对象是原始对象的副本,并且不对应于内存中的同一位置。因此,副本中所做的任何更改都不会影响其原始实例。

为了使用并行性和共享状态,必须应用不同的概念,如thread-based parallellism documentation中的 multithreading 。多线程和多处理之间的区别已在此处进行了详细讨论:Multiprocessing vs Threading Python

回到原始问题,可以通过两种简单的方法遍历List并应用功能:

1。使用multiprocessing.dummy

  

multiprocessing.dummy复制了多处理的API,但仅不过是线程模块的包装器。

所以答案可以写成:

import multiprocessing.dummy as mp
p = mp.Pool(3) # With 3 being the number of threads.
p.map(Kill_Animal, AnimalsList)
p.close()
p.join()

[print(animal.isAlive) for animal in AnimalsList]

输出:False False False False False

2。使用Queue

from queue import Queue
from threading import Thread

# Creates the hunter thread.
def hunter():
    while True:
        animal = q.get()
        Kill_Animal(animal)
        q.task_done()

num_hunter_threads = 3
q = Queue()

#Initialize the threads
for i in range(num_hunter_threads):
    t = Thread(target=hunter)
    t.daemon = True
    t.start()

#Adds each animal in the list to the Queue.
for animal in AnimalsList:
    q.put(animal)

#Execute the jobs in the queue.
q.join()

[print(animal.isAlive) for animal in AnimalsList)

输出:False False False False False