multiprocessing.Pool:何时使用apply,apply_async或map?

时间:2011-12-16 11:08:13

标签: python multithreading concurrency multiprocessing

我没有看到Pool.applyPool.apply_asyncPool.map的用例的明确示例。我主要使用Pool.map;别人有什么好处?

3 个答案:

答案 0 :(得分:344)

回到Python的旧时代,要使用任意参数调用函数,您将使用apply

apply(f,args,kwargs)

apply仍然存在于Python2.7中,但不存在于Python3中,并且通常不再使用。如今,

f(*args,**kwargs)

是首选。 multiprocessing.Pool模块尝试提供类似的界面。

Pool.apply与Python apply类似,不同之处在于函数调用是在单独的进程中执行的。 Pool.apply阻塞,直到功能完成。

Pool.apply_async也类似于Python的内置apply,除了调用立即返回而不是等待结果。返回AsyncResult个对象。您调用其get()方法来检索函数调用的结果。 get()方法阻塞,直到函数完成。因此,pool.apply(func, args, kwargs)相当于pool.apply_async(func, args, kwargs).get()

Pool.apply相比,Pool.apply_async方法还有一个回调,如果提供,则在函数完成时调用。这可以用来代替调用get()

例如:

import multiprocessing as mp
import time

def foo_pool(x):
    time.sleep(2)
    return x*x

result_list = []
def log_result(result):
    # This is called whenever foo_pool(i) returns a result.
    # result_list is modified only by the main process, not the pool workers.
    result_list.append(result)

def apply_async_with_callback():
    pool = mp.Pool()
    for i in range(10):
        pool.apply_async(foo_pool, args = (i, ), callback = log_result)
    pool.close()
    pool.join()
    print(result_list)

if __name__ == '__main__':
    apply_async_with_callback()

可能会产生结果,例如

[1, 0, 4, 9, 25, 16, 49, 36, 81, 64]

请注意,与pool.map不同,结果的顺序可能与pool.apply_async调用的顺序不对应。


因此,如果您需要在单独的流程中运行某个函数,但希望当前流程阻止直到该函数返回,请使用Pool.apply。与Pool.apply一样,Pool.map会阻止,直到返回完整的结果。

如果希望工作进程池池异步执行许多函数调用,请使用Pool.apply_async。结果的顺序不保证与Pool.apply_async的调用顺序相同。

另请注意,您可以使用Pool.apply_async调用多个不同的函数(并非所有调用都需要使用相同的函数)。

相反,Pool.map将相同的函数应用于许多参数。 但是,与Pool.apply_async不同,结果将按照与参数顺序相对应的顺序返回。

答案 1 :(得分:66)

关于apply vs map

pool.apply(f, args)f仅在池中的一个工作程序中执行。因此,池中的一个进程将运行f(args)

pool.map(f, iterable):此方法将iterable切换为多个块,并将其作为单独的任务提交给进程池。因此,您可以利用池中的所有进程。

答案 2 :(得分:54)

以下是表格格式的概述,目的是显示Pool.applyPool.apply_asyncPool.mapPool.map_async之间的区别。选择一个时,必须考虑多个参数,并发性,阻塞和排序:

                  | Multi-args   Concurrence    Blocking     Ordered-results
---------------------------------------------------------------------
Pool.map          | no           yes            yes          yes
Pool.map_async    | no           yes            no           yes
Pool.apply        | yes          no             yes          no
Pool.apply_async  | yes          yes            no           no
Pool.starmap      | yes          yes            yes          yes
Pool.starmap_async| yes          yes            no           no

注意:

  • Pool.imapPool.imap_async – map和map_async的惰性版本。

  • Pool.starmap方法,除了接受多个参数外,它与map方法非常相似。

  • Async方法立即提交所有过程,并在完成后检索结果。使用get方法获取结果。

  • Pool.map(或Pool.apply)方法与Python内置map(或apply)非常相似。它们阻塞主流程,直到所有流程完成并返回结果。

示例:

地图

一次调用一份工作列表

results = pool.map(func, [1, 2, 3])

应用

只能被要求一份工作

for x, y in [[1, 1], [2, 2]]:
    results.append(pool.apply(func, (x, y)))

def collect_result(result):
    results.append(result)

map_async

一次调用一份工作列表

pool.map_async(func, jobs, callback=collect_result)

apply_async

只能调用一项作业,并在后台并行执行作业

for x, y in [[1, 1], [2, 2]]:
    pool.apply_async(worker, (x, y), callback=collect_result)

starmap

pool.map的变体,它支持多个参数

pool.starmap(func, [(1, 1), (2, 1), (3, 1)])

starmap_async

starmap()和map_async()的组合,它在可迭代对象的可迭代对象上进行迭代,并在未迭代的情况下调用func。返回结果对象。

pool.starmap_async(calculate_worker, [(1, 1), (2, 1), (3, 1)], callback=collect_result)

参考:

在此处找到完整的文档:https://docs.python.org/3/library/multiprocessing.html