Question

美好的一天

我正在尝试加速涉及许多独立集成的计算。为此，我使用pythons Joblib和多处理。到目前为止，我已经成功地并行化了我的计算的内部循环，但我想对外部循环做同样的事情。由于并行编程与我的思想混乱，我想知道是否有人可以帮助我。到目前为止，我有：

 from joblib import Parallel, delayed
import multiprocessing

N = 10 # Some number
inputs = range(1,N,2)
num_cores = multiprocessing.cpu_count()

def processInput(n):
    u_1 = lambda x,y: f(x,y)g(n,m) # Some function
    Cn = scintegrate.nquad(u_1, [[A,B],[C,D]]) # A number
    return Cn*F(x,y)*G(n,m)

resultsN = []

for m in range(1,N,2):  # How can this be parallelized? 
    add = Parallel(n_jobs=num_cores)(delayed(processInput)(n) for n in inputs)
    resultsN = add + resultsN

resultsN = sum(resultsN)

到目前为止，这已经产生了正确的结果。现在我想对外循环做同样的事情。有谁知道我该怎么做？

我也想知道u_1声明是否可以在processInput之外完成，任何其他改进建议都将受到赞赏。

感谢您的回复。

Answer 1

如果我理解正确，您可以针对一系列processInput(n)值运行您的函数n，并且需要执行m次并将所有内容添加到一起。在这里，索引m仅计算您想要运行处理函数的次数并将结果一起添加，但没有别的。这允许您只使用一层并行性来完成所有操作，即创建已包含重复值的输入列表，并将该工作负载分配到您的核心中。快速的直觉是，不是并行处理输入[1,2,3,4]而是多次执行此操作，而是以并行输入[1,1,1,2,2,2,3,3,3,4,4,4]运行。这就是它的样子（我已经将你的功能改成了一个我可以运行的更简单的功能）。

import numpy as np
from joblib import Parallel, delayed
import multiprocessing
from math import ceil

N = 10 # Some number
inputs = range(1,N,2)
num_cores = multiprocessing.cpu_count()

def processInput(n): # toy function
    return n

resultsN = []
# your original solution with an additional loop that needs
# to be parallelized
for m in range(1,N,2):  
    add = Parallel(n_jobs=num_cores)(delayed(processInput)(n) for n in inputs)
    resultsN = add + resultsN
resultsN = sum(resultsN)
print resultsN

# solution with only one layer of parallelization
ext_inputs = np.repeat(inputs,ceil(m/2.0)).tolist()
add = Parallel(n_jobs=num_cores)(delayed(processInput)(n) for n in ext_inputs)
resultsN = sum(add)
print resultsN

ceil是必需的，因为在原始循环中m会跳过每秒的值。

Python Joblib

1 个答案: