星图结合tqdm?

时间:2019-08-05 08:20:44

标签: python multiprocessing python-multiprocessing tqdm process-pool

我正在做一些并行处理,如下:

with mp.Pool(8) as tmpPool:
        results = tmpPool.starmap(my_function, inputs)

其中输入看起来像:     [(1,0.2312),(5,0.52)...] 即int和float的元组。

代码运行得很好,但我似乎无法将其包裹在加载栏(tqdm)上,例如可以通过以下imap方法来完成:

tqdm.tqdm(mp.imap(some_function,some_inputs))

也可以对星图进行此操作吗?

谢谢!

4 个答案:

答案 0 :(得分:12)

最简单的方法可能是在输入周围应用 tqdm(),而不是映射函数。例如:

inputs = zip(param1, param2, param3)
with mp.Pool(8) as pool:
    results = pool.starmap(my_function, tqdm.tqdm(inputs, total=len(inputs)))

答案 1 :(得分:10)

starmap()是不可能的,但是添加Pool.istarmap()的补丁程序是可能的。它基于imap()的代码。您要做的就是创建istarmap.py文件并导入模块以应用补丁,然后再进行常规的多处理导入。

# istarmap.py
import multiprocessing.pool as mpp


def istarmap(self, func, iterable, chunksize=1):
    """starmap-version of imap
    """
    if self._state != mpp.RUN:
        raise ValueError("Pool not running")

    if chunksize < 1:
        raise ValueError(
            "Chunksize must be 1+, not {0:n}".format(
                chunksize))

    task_batches = mpp.Pool._get_tasks(func, iterable, chunksize)
    result = mpp.IMapIterator(self._cache)
    self._taskqueue.put(
        (
            self._guarded_task_generation(result._job,
                                          mpp.starmapstar,
                                          task_batches),
            result._set_length
        ))
    return (item for chunk in result for item in chunk)


mpp.Pool.istarmap = istarmap

然后在您的脚本中:

import istarmap  # import to apply patch
from multiprocessing import Pool
import tqdm    


def foo(a, b):
    for _ in range(int(50e6)):
        pass
    return a, b    


if __name__ == '__main__':

    with Pool(4) as pool:
        iterable = [(i, 'x') for i in range(10)]
        for _ in tqdm.tqdm(pool.istarmap(foo, iterable),
                           total=len(iterable)):
            pass

答案 2 :(得分:1)

临时解决方案:重写要与imap并行化的方法。

答案 3 :(得分:0)

正如 Darkonaut 所提到的,在撰写本文时,没有 istarmap 本机可用。如果您想避免打补丁,可以添加一个简单的 *_star 函数作为解决方法。 (此解决方案的灵感来自 this tutorial.

import tqdm
import multiprocessing

def my_function(arg1, arg2, arg3):
  return arg1 + arg2 + arg3

def my_function_star(args):
    return my_function(*args)

jobs = 4
with multiprocessing.Pool(jobs) as pool:
    args = [(i, i, i) for i in range(10000)]
    results = list(tqdm.tqdm(pool.imap(my_function_star, args), total=len(args))

一些注意事项:

我也很喜欢科里的回答。它更干净,但进度条似乎没有我的答案更新得那么顺利。请注意,使用我在上面发布的带有 chunksize=1(默认值)的代码,corey 的答案要快几个数量级。我猜这是由于多处理序列化,因为增加 chunksize(或具有更昂贵的 my_function)使它们的运行时间具有可比性。

因为我的序列化/函数成本比率非常低,所以我选择了我的应用程序的答案。