s=1
r=m=n=o=p=q=u=t=19
myfile = fopen ("sequence2.txt", "w", "ieee-le");
for a=0:1
if(a==1)
r=5
endif
for b=0:r
if(a==1 && b==5)
m=11
endif
for c=0:m
n=o=19
for d=0:1
if(d==1)
n=5
endif
for e=0:n
if(d==1 && e==5)
o=11
endif
for f=0:o
p=q=19
for g=0:1
if(g==1)
p=5
endif
for h=0:p
if(g==1 && h==5)
q=11
endif
for i=0:q
t=u=19
for j=0:1
if(j==1)
t=5
endif
for k=0:t
if(j==1 && k==5)
u=11
endif
for l=0:u
s=s+1
fputs(myfile,num2str(a));
fputs(myfile,".");
fputs(myfile,num2str(b));
fputs(myfile,".");
fputs(myfile,num2str(c));
fputs(myfile,":");
fflush(stdout);
fputs(myfile,num2str(d));
fputs(myfile,".");
fputs(myfile,num2str(e));
fputs(myfile,".");
fputs(myfile,num2str(f));
fputs(myfile,":");
fflush(stdout);
fputs(myfile,num2str(g));
fputs(myfile,".");
fputs(myfile,num2str(h));
fputs(myfile,".");
fputs(myfile,num2str(i));
fputs(myfile,":");
fflush(stdout);
fputs(myfile,num2str(j));
fputs(myfile,".");
fputs(myfile,num2str(k));
fputs(myfile,".");
fputs(myfile,num2str(l));
fputs(myfile,"\n");
fflush(stdout);
end
end
end
end
end
end
end
end
end
end
end
end
八度音阶中的上述代码是生成一个写入文本文件的数字序列。它需要几天才能完成执行,因为它产生大约2 ^ 36个数字。所以任何人都可以告诉我们如何在hpc中并行化这段代码。
答案 0 :(得分:0)
您可能不需要并行化这个;通过转换为编译语言,您可以将速度提高大约10000倍。 (说真的;见下文。)当糖蜜运行时,Octave甚至matlab都会变慢。它们非常适合大型矩阵操作,但是大量嵌套循环及其中的if语句将以慢慢速运行。通常我建议将Octave / Matlab代码移动到FORTRAN,但是因为你已经得到了基本上用C语句编写的文件I / O,所以这段代码的C等价物几乎写出来了:
#include <stdio.h>
int main(int argc, char **argv) {
int a,b,c,d,e,f,g,h,i,j,k,l;
int s,r,m,n,o,p,q,u,t;
FILE *myfile;
s=1;
r=m=n=o=p=q=u=t=19;
myfile = fopen ("sequence2-c.txt", "w");
for (a=0; a<=1; a++) {
if (a == 1)
r = 5;
for (b=0; b<=r; b++) {
if (a == 1 && b == 5)
m = 11;
for (c=0; c<=m; c++) {
n = o = 19;
for (d=0; d<=1; d++) {
if (d==1)
n = 5;
for (e=0; e<=n; e++) {
if (d==1 && e == 5)
o = 11;
for (f=0; f<=o; f++) {
p = q = 19;
for (g=0; g<=1; g++) {
if (g == 1)
p = 5;
for (h=0; h<=p; h++) {
if (g == 1 && h==5)
q = 11;
for (i = 0; i<=q; i++) {
t=u=19;
for (j=0; j<=1; j++) {
if (j==1)
t=5;
for (k=0; k<=t; k++) {
if (j==1 && k==5)
u=11;
for (l=0;l<=u;l++){
s++;
fprintf(myfile,"%d.%d.%d:%d.%d.%d:%d.%d.%d:%d.%d.%d\n",a,b,c,d,e,f,g,h,i,j,k,l);
}
}
}
}
}
}
}
}
}
}
}
}
return 0;
}
运行上面的八度代码和这个C代码(用-O3编译)各一分钟,八度代码通过序列中的大约2,163个项目,编译的C代码通过23,299,068。这很好。
在并行化方面,将其分解为独立的部分很容易,但它们不会特别好地实现负载平衡。如果你开始(说)26个过程,并给它们(a = 0,b = 0),(a = 0,b = 1)......,(a = 0,b = 19),(a = 1, b = 0),(a = 1,b = 1),..(a = 1,b = 5),它们都可以独立运行,并且当它们全部完成时你可以连接结果。唯一的缺点是a = 0作业的运行速度会慢于a = 1作业,但也许这样就足够了。