使用Pool map的并行列表理解

时间:2015-05-21 13:00:49

标签: python-3.4 python-multiprocessing pathos

我有一个列表理解:

thingie=[f(a,x,c) for x in some_list]

我按照以下方式进行并行化:

from multiprocessing import Pool

pool=Pool(processes=4)

thingie=pool.map(lambda x: f(a,x,c), some_list)

但是我收到以下错误:

_pickle.PicklingError: Can't pickle <function <lambda> at 0x7f60b3b0e9d8>:
attribute lookup <lambda> on __main__ failed

我尝试安装显然解决此问题的pathos软件包,但是当我尝试导入它时出现错误:

ImportError: No module named 'pathos'

2 个答案:

答案 0 :(得分:4)

好的,所以这个答案只是为了记录,我在评论对话期间与问题的作者一起解决了这个问题。

multiprocessing需要在进程之间传输每个对象,因此它使用pickle在一个进程中序列化它并在另一个进程中反序列化。一切正常,但pickle无法序列化lambda。 AFAIR是这样的,因为pickle需要函数源来序列化它,lambda不会拥有它,但我不是100%肯定而且不能引用我的来源。

如果在1个参数函数上使用map(),则不会有任何问题 - 您可以传递该函数而不是lambda。如果您有更多参数,例如在您的示例中,则需要使用def关键字定义一些包装器:

from multiprocessing import Pool

def f(x, y, z):
    print(x, y, z)

def f_wrapper(y):
    return f(1, y, "a")

pool = Pool(processes=4)

result = pool.map(f_wrapper, [7, 9, 11])

答案 1 :(得分:3)

在我关闭之前,我发现使用functools,使用functools,另一种方法来做到这一点,

说我有一个函数f,其中包含三个变量f(a,x,c),其中一个我想要,x。我可以使用以下代码基本上做@FilipMalczak建议的内容:

import functools
from multiprocessing import Pool


f1=functools.partial(f,a=10)

f2=functools.partial(f2,c=10)

pool=Pool(processes=4)
final_answer=pool.map(f2,some_list)