多处理:在导入的函数中使用pool

时间:2014-02-14 11:22:27

标签: python performance python-2.7 multiprocessing pool

我正在尝试创建一个脚本,它从一个单独的模块调用一个函数来进行并行处理。

我的“顶级”脚本如下所示:

from hydrology import model, descriptors
if __name__ == "__main__":
   datafile = r"C:\folder\datafile.shp"
   myModel = model.Model(data = datafile)

   res = descriptors.watershed_pll(myModel)

descriptors模块如下所示:

from multiprocessing import Pool
from arcfunc import multi_watershed

def watershed_pll(model):
    pool = Pool()
    for key, val in model.stations.iteritems():
        res = pool.apply_async(multi_watershed(val, key))
    pool.close()
    pool.join()
    return res

如您所见,并行运行的函数是从模块arcfunc导入的, 执行并行化的函数位于模块descriptors内,运行所有内容的脚本再次分离。

我跑步时没有例外,但我有两个问题:

  1. res.successful()返回False
  2. 它没有比没有多处理更快的运行速度。
  3. 我怀疑我的架构使事情变得复杂,但是,并行化功能在一个单独的模块中非常重要。

    有什么建议吗?

1 个答案:

答案 0 :(得分:0)

代码不是将函数和参数传递给apply_async,而是直接调用multi_watershed(在主进程中),并传递函数的返回值。

传递函数和参数。

替换以下行:

res = pool.apply_async(multi_watershed(val, key))

使用:

res = pool.apply_async(multi_watershed, (val, key))