Question

我尝试使用multiprocessing.dummy运行parellel get request with progress by progress。

from multiprocessing.dummy import Pool
from functools import partial
class Test(object):
    def __init__(self):
        self.count = 0
        self.threads = 10
    def callback(self, total, x):
        self.count += 1
        if self.count%100==0:
            print("Working ({}/{}) cases processed.".format(self.count, total))
    def do_async(self):
        thread_pool = Pool(self.threads)#self.threads
        input_list = link
        callback = partial(self.callback, len(link))
        tasks = [thread_pool.apply_async(get_data, (x,), callback=callback) for x in input_list]
        return (task.get() for task in tasks)
start = time.time()
t = Test()
results = t.do_async()
end = time.time()`

操作的结果 - 与非并行请求同时

Answer 1

由于称为全局解释器锁（GIL），CPython本质上是单线程的。这意味着即使有多个CPU核心可用，也一次只能运行一个线程。 multiprocessing.dummy只是使用线程的包装器，所以这就是你没有加速的原因。

要获得拥有多个CPU的好处，您必须使用multiprocessing本身。但是，存在基于发送和接收子过程的输入和输出数据的成本的开销。如果此成本高于子流程完成的工作量，那么使用multiprocessing实际上可能会降低您的程序速度。所以在你的例子中，multiprocessing可能不会给你提速。这尤其正确，因为回调中的大多数工作涉及打印到标准输出，池中的所有进程必须同步以防止打印垃圾。

Answer 2

我在concurrent.futures中找到了解决方案：

import concurrent.futures as futures
import datetime
import sys
results=[]
print("start", datetime.datetime.now().isoformat())
start =time.time()
with futures.ThreadPoolExecutor(max_workers=100) as executor:
    fs = [executor.submit(get_data, url) for url in link]
    for i, f in enumerate(futures.as_completed(fs)):
        results.append(f.result())
        if i%100==0:
            sys.stdout.write("line nr: {} / {} \r".format(i, len(link)))

使用multiprocessing.dummy的并行请求

2 个答案: