我希望使用多处理模块来加快某些传输规划模型的运行时间。我通过“正常”方法尽可能地优化,但其核心是一个荒谬的并行问题。例如,执行相同的矩阵运算集,4个不同的输入集,所有独立的信息。
伪代码:
for mat1,mat2,mat3,mat4 in zip([a1,a2,a3,a4],[b1,b2,b3,b4],[c1,c2,c3,c4],[d1,d2,d3,d4]):
result1 = mat1*mat2^mat3
result2 = mat1/mat4
result3 = mat3.T*mat2.T+mat4
所以我真正想做的就是在四核计算机上并行处理这个循环的迭代。我已经在这里以及多处理模块上的其他地方阅读过,除了要求之外,它似乎完全符合要求:
if __name__ == '__main__'
根据我的理解,这意味着您只能从脚本运行多进程代码?即如果我做了类似的事情:
import multiprocessing
from numpy.random import randn
a = randn(100,100)
b = randn(100,100)
c = randn(100,100)
d = randn(100,100)
def process_matrix(mat):
return mat^2
if __name__=='__main__':
print "Multiprocessing"
jobs=[]
for input_matrix in [a,b,c,d]:
p = multiprocessing.Process(target=process_matrix,args=(input_matrix,))
jobs.append(p)
p.start()
它运行正常,但假设我将上面保存为'matrix_multiproc.py',并定义了一个新文件'imported_test.py',它只是声明:
import matrix_multiproc
多重处理不会发生,因为名称现在是'matrix_multiproc'而不是' main '
这是否意味着我永远不能在导入的模块上使用并行处理?我所要做的就是将我的模型运行为:
def Model_Run():
import Part1, Part2, Part3, matrix_multiproc, Part4
Part1.Run()
Part2.Run()
Part3.Run()
matrix_multiproc.Run()
Part4.Run()
对于一个非常长的问题很抱歉,这可能是一个简单的答案,谢谢!
答案 0 :(得分:9)
这是否意味着我永远不能在导入的模块上使用并行处理?
不,它没有。您可以在代码中的任何位置使用multiprocessing
,提供程序的主模块使用if __name__ == '__main__'
后卫。
在Unix系统上,你甚至不需要那个防护,因为它具有fork()
系统调用,可以从主python
进程创建子进程。
另一方面,在Windows上,fork()
通过使用不同的{{1}生成运行主模块的新进程来模拟multiprocessing
__name__
}。如果没有这里的警卫,你的主应用程序将尝试再次产生新的进程,导致无限循环,并且很快耗尽所有计算机的内存。