Python多处理apply_async不可以腌制吗?

时间:2019-12-26 16:23:25

标签: python python-3.x pickle python-multiprocessing pool

我正在计算大量函数(大约1000000),并且由于它非常耗时,因此我正在使用multiprocessing.Pool.apply_async函数。但是,当我尝试使用AsyncResult类的.get()函数读取结果时,出现错误:

File "Test.py", line 17, in <module>
    Test()
  File "Test.py", line 11, in __init__
    self.testList[i].get(5)
  File "/Library/Frameworks/Python.framework/Versions/3.7/lib/python3.7/multiprocessing/pool.py", line 657, in get
    raise self._value
  File "/Library/Frameworks/Python.framework/Versions/3.7/lib/python3.7/multiprocessing/pool.py", line 431, in _handle_tasks
    put(task)
  File "/Library/Frameworks/Python.framework/Versions/3.7/lib/python3.7/multiprocessing/connection.py", line 206, in send
    self._send_bytes(_ForkingPickler.dumps(obj))
  File "/Library/Frameworks/Python.framework/Versions/3.7/lib/python3.7/multiprocessing/reduction.py", line 51, in dumps
    cls(buf, protocol).dump(obj)
TypeError: can't pickle _thread.lock objects

给出相同错误的简化类:

import multiprocessing as mp
import numpy as np

class Test:
    def __init__(self):
        pool = mp.Pool(processes = 4)
        self.testList = [0,0,0,0]
        for i in range(0,len(self.testList)):
            self.testList[i] = pool.apply_async(self.run, (1,))
        for i in range(0,len(self.testList)):
            self.testList[i].get(5)

    def run(self, i):
        return 1


Test()

有趣的是,如果我改用self.testList testList,则代码可以正常工作。但是,当我使用.ready()而不是.get()进行比较时,我发现self.testList比testList快约1000倍(我无法解释这一点)。因此,我真的很想找到一种使用self.testList的方法。

我一直在搜索,尽管与此相关的还有其他线程,但它们似乎更多地集中在队列上而不是apply_async上。任何帮助将不胜感激!

谢谢!

编辑:似乎发生了最初的问题,因为我在一个类中调用了mp.Pool。当我在类外创建相同的进程时,程序会运行,但是与类中的代码相比,它运行起来非常慢(慢30倍)(我使用.ready()函数对此进行了测试,在两种情况下均能正常工作) 。这是一个最小的示例:

import multiprocessing as mp
import numpy as np
import time

class Test:
    def __init__(self):
        pool = mp.Pool(processes = 4)
        self.testList = [0 for i in range(0,100000)]
        for i in range(0,len(self.testList)):
            self.testList[i] = pool.apply_async(self.run, (1,))
        for i in range(0,len(self.testList)):
            while not self.testList[i].ready():
                continue

    def run(self, i):
        return 1

def functionTest():
    pool = mp.Pool(processes = 4)
    testList = [0 for i in range(0,100000)]
    for i in range(0,len(testList)):
        testList[i] = pool.apply_async(run, (1,))
    for i in range(0,len(testList)):
        while not testList[i].ready():
            continue

def run(i):
    return 1


startTime1 = time.time()
Test()
startTime2 = time.time()
print(startTime2-startTime1)



startTime1 = time.time()
functionTest()
startTime2 = time.time()
print(startTime2-startTime1)

此测试的输出是

5.861901044845581
151.7218940258026

我尝试寻找使类方法起作用的方法,例如从 init 函数中删除多处理功能或将类提供给池对象而不是让类创建它。不幸的是,这些方法都不起作用。我真的很想找到一种可行且仍然快速的方法。谢谢谢谢您的帮助!

1 个答案:

答案 0 :(得分:0)

当您生成多个线程时,您尝试使整个类都处于腌制状态,其中包含来自 init 中设置的mp.Pool的值。复制mp.Pool既无效,在这里也没有任何意义。而是将您的类分为两个单独的顶层函数,或者至少将多处理内容移到Test类之外的自己的函数中。