如何对不同的输入变量使用SPMD并按顺序保存输出?

时间:2018-08-27 08:13:52

标签: matlab parallel-processing spmd

我正在使用模拟退火算法来优化问题,我必须对100个不同的输入变量进行处理,并按顺序保存所有变量的输出。问题是我不知道如何在代码中实现spmd来进行并行计算,因此每个输入都在一个CPU内核上运行,而最终结果存储在100行矩阵中。我尝试将其放在第一个for循环之前,但由于我的CPU有4个内核,因此它仅返回由4个元素组成的组合。这是我的代码

spmd
for v=1:100
posmat=loading_param(Matrix,v);
nvar=size(posmat,2); 
popsize=50;
maxiter=20;
T0=1000;
Tf=1;
Tdamp=((T0-Tf)/maxiter);
nn=5;
T=T0;

%% initial population
tic
emp.var=[];
emp.fit=inf;
pop=repmat(emp,popsize,1);
    for i=1:popsize
     pop(i).var=randperm(nvar);
     pop_double=pop(i).var;
     posmat_new=tabdil(nvar,pop_double,posmat);
     dis=cij(posmat_new);
     pop(i).fit=fittness(dis);
    end
   [value,index]=min([pop.fit]);
   gpop=pop(index);

%% algorithm main loop 
BEST=zeros(maxiter,1);

for iter=1:maxiter
    for i=1:popsize
        bnpop=emp;
        for j=1:nn

            npop=create_new_pop(pop(j),nvar,posmat);

            if npop.fit<bnpop.fit
                bnpop=npop;

            end

        end

        if bnpop.fit<pop(i).fit
            pop(i)=bnpop;
        else
            E=bnpop.fit-pop(i).fit;
            pr=exp(-E/T);
            if rand<pr
                pop(i)=bnpop;
            end
        end
    end

    T=T-Tdamp;


 [value,index]=min([pop.fit]);
 if value<gpop.fit
 gpop=pop(index);

 BEST(iter)=gpop.fit;
 disp([ 'iter= ' num2str(iter) 'BEST=' num2str(BEST(iter))])
 end
end



%% algorithm results

disp([ ' Best solution=' num2str(gpop.var)])
disp([ ' Best fittness=' num2str(gpop.fit)])
disp([ ' Best time=' num2str(toc)])

bnpop_all(d,:)=bnpop.var;
d=d+1;

end %end of main for loop
end % end of spmd

1 个答案:

答案 0 :(得分:2)

摘自spmd上的文档:

  

spmd语句主体返回的值在MATLAB客户端上转换为Composite对象。 Composite对象包含对存储在远程MATLAB worker上的值的引用,并且可以使用单元数组索引来检索这些值。只要在客户端上存在Composite,并且并行池保持打开状态,工作程序的实际数据就可以在工作程序上用于后续spmd的执行中。

因此,输出是4个元素的复合,因为您有4个CPU内核,所以output{1}为您提供第一个元素,output{2}为您提供第二个元素,以此类推。单一矩阵。

此时,您的代码仅运行四次,每个工作人员执行一个完整的100次迭代for循环。解决此问题的一种更简单的方法是使用parfor而不是spmd,因为您可以保持循环不变。如果要使用spmd,请先将v切成四段(每段25个元素),然后在每个工作程序上仅迭代这25个元素。

看到带有三个嵌套循环的代码,我建议现在不并行化,而是尝试对代码进行概要分析,找出瓶颈所在,并尝试加速瓶颈。可能尝试对嵌套循环进行矢量化处理已经可以改善很多。