python在使用pool.map_async时没有输出

时间:2014-08-10 07:12:13

标签: python map multiprocessing pool itertools

我在使用pool.map调用的函数中的数据时遇到了非常奇怪的问题。例如,以下代码按预期工作...

import csv
import multiprocessing
import itertools
from collections import deque

cur_best = 0
d_sol = deque(maxlen=9)
d_names = deque(maxlen=9)

**import CSV Data1**

def calculate(vals):
    #global cur_best
    sol = sum(int(x[2]) for x in vals)
    names = [x[0] for x in vals]
    print(", ".join(names) + " = " + str(sol))

def process():
    pool = multiprocessing.Pool(processes=4)
    prod = itertools.product(([x[2], x[4], x[10]] for x in Data1))
    result = pool.map_async(calculate, prod)
    pool.close()
    pool.join()
    return result

process()

现在,当我向calculate()添加一个简单的if语句时,我没有输出。

   def calculate(vals):
        #global cur_best
        sol = sum(int(x[2]) for x in vals)
        if sol > cur_best:
             cur_best = sol
             names = [x[0] for x in vals]
             print(", ".join(names) + " = " + str(cur_best))
             #would like to append cur_best and names to a deque

我已经尝试调整我声明'cur_best'的地方无济于事。

我正在尝试跟踪“当前最佳”解决方案,因为我正在进行计算。在我的线性代码中,这个逻辑驻留在一个嵌套的for循环中,我将每个新的'cur_best'附加到双端队列。

我的新问题是否与pool.map或pool.map_async的工作方式有关?我可以不再将我的calculate()函数视为线性循环吗?

我还需要解决其他几个条件语句。我应该在代码的不同部分处理这个吗?如果是这样,究竟是怎么回事?

1 个答案:

答案 0 :(得分:2)

这里可能发生两件事。首先,你没有看到从工作函数打印的任何东西的原因可能是因为它抛出异常。由于您使用的是map_async,因此在致电result.get()之前,您实际上不会看到异常。但是,由于您在使用close之后立即在池中调用了join / map_async,因此您应该只使用map,这将阻止所有工作完成(或抛出异常)。我不确定为什么发生异常(没有从你提供的代码中跳出来),但我的猜测是你从某个地方的列表中提取了错误的索引。

其次,正如Armin Rigo指出的那样,cur_best并非在所有进程之间共享,因此您的逻辑将无法按照您的意图运行。我认为最简单的选择是使用multiprocessing.Value在共享内存中创建一个整数,所有进程都可以访问它。

要将结果附加到deque,您需要使用multiprocessing.Manager创建共享deques。 Manager生成一个服务器进程,可以管理对象的共享访问(如deque)。您池中的每个进程(以及父进程)都可以访问Proxy对象,该对象可以与Manager的进程通信以读取/写入共享对象。

以下是一个展示上述内容的示例:

import itertools
import multiprocessing
from collections import deque
from multiprocessing.managers import BaseManager, MakeProxyType

class DequeManager(BaseManager):
   pass

BaseDequeProxy = MakeProxyType('BaseDequeProxy', (
    '__add__', '__contains__', '__delitem__', '__getitem__', '__len__',
    '__mul__', '__reversed__', '__rmul__', '__setitem__',
    'append', 'count', 'extend', 'extendleft', 'index', 'insert', 'pop', 
    'remove', 'reverse', 'sort', 'appendleft', 'popleft', 'rotate', 
    '__imul__'
    ))
class DequeProxy(BaseDequeProxy):
    def __iadd__(self, value):
        self._callmethod('extend', (value,))
        return self
    def __imul__(self, value):
        self._callmethod('__imul__', (value,))
        return self

DequeManager.register('deque', deque, DequeProxy)


cur_best = d_sol = d_names = None

def init_globals(best, sol, names):
    """ This will be called in each worker process. 

    A global variable (cur_best) will be created in each worker.
    Because it is a multiprocessing.Value, it will be shared
    between each worker, too.

    """
    global cur_best, d_sol, d_names
    cur_best = best
    d_sol = sol
    d_names = names

def calculate(vals):
    global cur_best
    sol = sum(int(x[2]) for x in vals)
    if sol > cur_best.value:
        cur_best.value = sol
        names = [x[0] for x in vals]
        print(", ".join(names) + " = " + str(cur_best.value))
        d_sol.append(cur_best.value)
        d_names.append(names)
    return sol

def process():
    global d_sol, d_names
    cur_best = multiprocessing.Value("I", 0)  # unsigned int

    m = DequeManager()
    m.start()
    d_sol = m.deque(maxlen=9)
    d_names = m.deque(maxlen=9)  

    pool = multiprocessing.Pool(processes=4, initializer=init_globals, 
                                initargs=(cur_best, d_sol, d_names))
    prod = itertools.product([x[2], x[4], x[10]] for x in Data1)
    result = pool.map(calculate, prod)  # map instead of map_async
    pool.close()
    pool.join()
    return result  # Result will be a list containing the value of `sol` returned from each worker call

if __name__ == "__main__":    
    print(process())