我试图用数值积分的梯形法则计算pi的值。为此我编写了一个在给定范围内进行迭代的串行代码。为了计算并行开销,我通过将线程数设置为1来运行相同的代码。现在,我已经获得了以下执行时间与问题大小的关系图。
因为,我们只创建一个线程,我认为这并没有太多的通信开销。那么这背后的原因可能是什么呢?据我所知,指令的调用是在编译时完成的,即,如果你定义了一个MACRO,那么它会在运行时之前得到扩展,所以我错过了那里的东西吗?或者它与我的想法完全不同?
以下是序列号
#include<stdio.h>
#include<omp.h>
int main()
{
FILE *fp = fopen("pi_serial.txt", "a+");
long num_steps = 1e9;
double step_size = 1.0 / num_steps;
long i;
double sum = 0;
double start_time = omp_get_wtime();
for(i = 0; i< num_steps; i++) {
double x = (i + 0.5) * step_size;
sum += (4.0 / (1.0 + (x * x)));
}
sum = sum * step_size;
double end_time = omp_get_wtime();
fprintf(fp, "%lf %lf\n", sum, end_time - start_time);
fclose(fp);
return 0;
}
这是多线程代码
#include <stdio.h>
#include <omp.h>
#include <stdlib.h>
int main(int argc, char* argv[])
{
FILE* fp = fopen("pi_parallel.txt", "a+");
omp_set_num_threads(1);
long num_steps = atol(argv[1]);
double step_size = 1.0 / num_steps;
double sum = 0;
double start_time = omp_get_wtime();
#pragma omp parallel
{
int id = omp_get_thread_num();
double private_sum = 0;
int i;
for(i = id; i <= num_steps; i += 1){
double x = (i + 0.5) * step_size;
private_sum += (4.0 / (1.0 + x * x));
}
#pragma omp critical
sum += private_sum;
}
sum *= step_size;
double end_time = omp_get_wtime();
fprintf(fp, "%lf %lf\n", sum, end_time - start_time);
fclose(fp);
return 0;
}
的图表
答案 0 :(得分:-1)
https://www.youtube.com/watch?v=OuzYICZUthM&list=PLLX-Q6B8xqZ8n8bwjGdzBJ25X2utwnoEG&index=7
上述视频将有助于理解为什么串行代码可能比具有一个线程的并行代码更快。 根据演示者的说法,可以看出,由于您正在设置omp环境变量,在程序中间创建一个线程,openmp程序运行速度比串行代码慢。
但主要的是看代码的可扩展性 - 在多个线程上运行时,代码与串行相比有多快? 当您在多个线程上运行相同的代码但仍然没有看到性能提升时,可能是由于错误共享。根据我的理解,考虑驻留在同一缓存行中的两个变量。主线程访问其中一个变量并对其进行修改,从而使高速缓存行无效。如果线程1必须访问修改的高速缓存行,则修改的高速缓存行被写入存储器,然后线程从存储器中取出高速缓存行并修改它。此过程可能会增加执行时间。
参考文献: https://docs.oracle.com/cd/E37069_01/html/E37081/aewcy.html
*我不拥有视频。