我有一段简单的代码可以并行修改2D矢量。我分别使用1和4个线程测试它。但是,我加速不到2倍。我无法想出它为什么不能扩展的任何理由。任何人都可以给我一个提示吗?谢谢!
#include<iostream>
#include<omp.h>
#include<vector>
#include<chrono>
#include<stdio.h>
using namespace std;
typedef std::chrono::milliseconds ms;
struct Dummy{
char dummy[70];
Dummy(){
for(int i=0;i<70;i++){
dummy[i]='a';
}
}
};
int main(){
int num = 5000000;
vector<vector<Dummy> >myvec(4, vector<Dummy>(num));
auto start = std::chrono::high_resolution_clock::now();
#pragma omp parallel for schedule(static)
for(int i=0;i<4;i++){ //modifies myvec in parallel
int tid = omp_get_thread_num();
printf("Thread %d is going to work\n",tid);
for(int j=0;j<num;j++){
myvec[i][j].dummy[0]='b';
}
}
auto end = std::chrono::high_resolution_clock::now();
cout<<"Time used: "<< std::chrono::duration_cast<ms>(end - start).count()<<"ms"<<endl;
return 0;
}
答案 0 :(得分:0)
在这种情况下,不良缩放主要是由于您没有在并行部分进行足够大的计算。在示例代码中,您的内存性能应该是最大的限制因素,并且在单个桌面/移动CPU上,内存子系统可能会被所有内核共享,因此您不应期望良好的扩展。