除了a[4][4]
,b[4][4]
,result2[4][4]
这样的平方矩阵之外,此代码不起作用,但它不适用于a[4][10]
,b[10][10]
, result2[4][10]
//Init
for(r=0;r<numrowsa;r++){
for(c=0;c<numcolsa;c++){
a[r][c]=rand()%101;
}
}
for(r=0;r<numrowsb;r++){
for(c=0;c<numcolsb;c++){
b[r][c]=rand()%101;
}
}
for(r=0;r<numrowsr;r++){
for(c=0;c<numcolsr;c++){
result[r][c]=0;
}
}
for(r=0;r<numrowsr2;r++){
for(c=0;c<numcolr2;c++){
result2[r][c]=0;
}
}
//end init
t1=clock();
//trying parallel calculation
# pragma omp parallel num_threads(4) private(j)
{
int thr = omp_get_thread_num();
if(thr == 0)
for(c=0;c<numcolsr;c++){
for(j=0 ;j<numcolsa ; j++)
result[0][c]+=a[0][j]*b[j][c];
}
else if (thr ==1 )
for(c=0;c<numcolsr;c++){
for(j=0 ; j<numcolsa ; j++)
result[1][c]+=a[1][j]*b[j][c];
}
else if (thr ==2 )
for(c=0;c<numcolsr;c++){
for(j=0 ; j<numcolsa ; j++)
result[2][c]+=a[2][j]*b[j][c];
}
else if (thr ==3)
for(c=0;c<numcolsr;c++){
for(j=0 ; j<numcolsa ; j++)
result[3][c]+=a[3][j]*b[j][c];
}
}
t2=clock();
cout <<endl<< "Time"<<t2-t1<<"ms"<<endl;
t1 = clock();
//trying serial calculation
for(r=0;r<numrowsr2;r++){
for(c=0;c<numcolr2;c++){
for(i=0 ; i<numcolsa ; i++)
result2[r][c]+=a[r][i]*b[i][c];
}
}
t2 = clock();
/*
for(r=0;r<numrows;r++){
for(c=0;c<numcols;c++){
cout <<result[r][c]<<" ";
if(c == numcols-1)
cout << endl;
}
}
*/
cout <<endl<< "Time"<<t2-t1<<"ms"<<endl;
错误是
运行时检查失败变量
'b'
周围的堆栈已损坏
有什么问题?
答案 0 :(得分:1)
哎哟。
# pragma omp parallel
int t = omp_get_thread_num();
int nt = ...;
for(int i=t ; i<M ; i += nt) {
for(int j=0 ; j<N ; ++j) {
for(int k=0 ; k<K ; ++k) {
....
}
}
}
答案 1 :(得分:0)
您写道:
if(thr == 0)
for(c=0;c<numcolsr;c++){
for(j=0 ;j<numcolsa ; j++)
result[0][c]+=a[0][j]*b[j][c];
}
else if (thr ==1 )
for(c=0;c<numcolsr;c++){
for(j=0 ; j<numcolsa ; j++)
result[1][c]+=a[1][j]*b[j][c];
}
// and so on
我不知道omp的详细信息,但我认为c
和j
共享在线程中是否正确?因为所有循环都使用相同的c
和相同的j
。
在这种情况下,可能会发生各种竞争条件。例如。线程1可以在线程0执行c++
之前执行result[0][c]+=a[0][j]*b[j][c]
,结果是读取/写入越界。