Python在使用multiprocessing.pool.map()调用的函数中递增一个数字

时间:2012-08-25 00:10:22

标签: python multithreading multiprocessing

我正在尝试在multiprocessing.pool.map()调用的函数中按顺序递增数字。当我运行以下代码时,我得到的数字增加的次数与每个数字的池数相同。

import time
import multiprocessing
import decimal
import random

lists = ['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h','i', 'j', 'k']
def thefunction(listi):
    global number
    number += 1
    time.sleep(decimal.Decimal(random.random()))
    print time.strftime('%H:%M:%S'), number, listi

number = 0
pool = multiprocessing.Pool(4)
pool.map(thefunction, lists)
print number

结果打印出来像这样

01:01:28 1 b
01:01:28 2 e
01:01:28 1 a
01:01:28 1 c
01:01:28 1 d
01:01:28 2 h
01:01:29 2 i
01:01:29 2 g
01:01:29 3 f
01:01:29 3 j
01:01:29 3 k
0

如何正确增加数字?

(time.sleep(decimal.Decimal(random.random()))仅用于停止脚本打印到同一行)

2 个答案:

答案 0 :(得分:4)

该示例不起作用的原因是计数器的多个实例正在创建并单独递增。

您需要为每个已启动的进程创建一个适当初始化的共享计数器和锁:

import time
from multiprocessing import Pool, Value, Lock
import decimal
import random

number = Value('i', 0)
lock = Lock()
lists = ['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h','i', 'j', 'k']

def thefunction(listi):
    time.sleep(decimal.Decimal(random.random()))
    with lock:
        number.value += 1
        print time.strftime('%H:%M:%S'), number.value, listi

def initializer(*args):
    global number, lock
    number, lock = args

pool = Pool(4, initializer, (number, lock))
pool.map(thefunction, lists)
print number.value

答案 1 :(得分:2)

您可能希望共享状态为multiprocessing.Value

或者更确切地说,这将做你要求的,但它可能不是你真正想要的;并行上下文中的共享状态通常是设计缺陷的标志。您可以做的一件事是让每个流程跟踪它处理的项目数量,并将 计数返回给父项;然后,父母可以将每个人完成的工作总数相加,以计算到目前为止已完成的工作量。

您尝试跨越流程边界的原因是什么?