我正在用Python做一个机器学习项目,所以我必须做并行预测功能,我正在我的程序中使用。
from multiprocessing.dummy import Pool
from multiprocessing import cpu_count
def multi_predict(X, predict, *args, **kwargs):
pool = Pool(cpu_count())
results = pool.map(predict, X)
pool.close()
pool.join()
return results
问题是我所有的CPU只加载了20-40%(总计为100%)。我使用multiprocessing.dummy,因为我在pickling函数中遇到了多处理模块的问题。
答案 0 :(得分:62)
使用multiprocessing.dummy
时,您使用的是线程,而不是进程:
multiprocessing.dummy
复制multiprocessing
的API,但不是 不仅仅是threading
模块的包装器。
这意味着您受Global Interpreter Lock (GIL)的限制,并且一次只能有一个线程实际执行CPU绑定操作。这将使您无法充分利用您的CPU。如果您希望在所有可用内核中获得完全并行性,那么您需要解决使用multiprocessing.Pool
时遇到的酸洗问题。
请注意,如果您需要并行化的工作是IO绑定,或者使用释放GIL的C扩展,multiprocessing.dummy
可能仍然有用。但是,对于纯Python代码,您需要multiprocessing
。