多进程Python 3

时间:2015-10-16 04:41:46

标签: python python-3.x

我有一个循环遍历数字数组的脚本,这些数字被传递给一个调用和API的函数。它返回JSON数据,然后写入CSV。

for label_number in label_array:
    call_api(domain, api_call_1, api_call_2, label_number, api_key)

列表最多可以包含7000个元素,因为API需要几秒钟才能响应,这可能需要数小时才能运行整个脚本。多处理似乎是这样的。我不能用上面的循环来解决这个问题。我正在查看的文档是

https://docs.python.org/3.5/library/multiprocessing.html

我在

找到了类似的文章

Python Multiprocessing a for loop

但是操纵它似乎不起作用,我认为在将所有变量传递给函数时,我正在喋喋不休。

任何帮助都将不胜感激。

1 个答案:

答案 0 :(得分:1)

多处理可能有所帮助,但这听起来更像是一个线程问题。任何IO实现都应该是异步的,这就是线程的作用。更好,在python3.4之后,您可以asynciohttps://docs.python.org/3.4/library/asyncio.html

如果您有python3.5,这将非常有用:https://docs.python.org/3.5/library/asyncio-task.html#example-hello-world-coroutine

您可以将asynciomultiprocessing混合以获得优化结果。我另外使用joblib

import multiprocessing
from joblib import Parallel, delayed 

def parallelProcess(i):
    for index, label_number in enumerate(label_array):
        if index % i == 0:
            call_api_async(domain, api_call_1, api_call_2, label_number, api_key)

if __name__=="__main__":
    num_cores_to_use = multiprocessing.cpu_count()
    inputs = range(num_cores_to_use)
    Parallel(n_jobs=num_cores_to_use)(delayed(parallelProcess)(i) for i in inputs)