Without using Open MP Directives - serial execution - check screenshot here
Using OpenMp Directives - parallel execution - check screenshot here
#include "stdafx.h"
#include <omp.h>
#include <iostream>
#include <time.h>
using namespace std;
static long num_steps = 100000;
double step;
double pi;
int main()
{
clock_t tStart = clock();
int i;
double x, sum = 0.0;
step = 1.0 / (double)num_steps;
#pragma omp parallel for shared(sum)
for (i = 0; i < num_steps; i++)
{
x = (i + 0.5)*step;
#pragma omp critical
{
sum += 4.0 / (1.0 + x * x);
}
}
pi = step * sum;
cout << pi <<"\n";
printf("Time taken: %.5fs\n", (double)(clock() - tStart) / CLOCKS_PER_SEC);
getchar();
return 0;
}
我多次尝试过,串行执行总是更快?
串行执行时间:0.0200秒 并行执行时间:0.02500s
为什么串行执行速度更快?我以正确的方式计算执行时间吗?
答案 0 :(得分:2)
OpenMP内部实现多线程并行处理,多线程的性能可以用大量数据来衡量。使用非常少量的数据,您无法测量多线程应用程序的性能。原因: -
a)创建线程O / S需要为每个线程分配内存需要花费时间(即使它很小)。
b)当你创建多线程时,它需要上下文切换,这也需要时间。
c)需要释放分配给线程的内存,这也需要时间。
d)取决于您机器中的处理器数量和总内存(RAM)
因此,当您尝试使用多线程进行小操作时,它的性能将与单个线程相同(默认情况下,O / S将一个线程分配给每个进程,即调用主线程)。所以在这种情况下你的结果是完美的。要测量多线程架构的性能,请使用大量数据并进行复杂操作,然后才能看到差异。
答案 1 :(得分:1)
由于您的critical
阻止,您无法并行加sum
。每当一个线程到达critical
部分时,所有其他线程都必须等待。
智能方法是为每个线程创建一个sum的临时副本,该副本可以在不同步的情况下求和,然后对来自不同线程的结果求和。
Openmp可以使用reduction
子句自动执行此操作。所以你的循环将改为。
#pragma omp parallel for reduction(+:sum)
for (i = 0; i < num_steps; i++)
{
x = (i + 0.5)*step;
sum += 4.0 / (1.0 + x * x);
}
在我的机器上,这比使用critical
块的版本快10倍(我还增加了num_steps以减少线程创建等一次性操作的影响)。
PS:我建议您使用<chrono>
,<boost/timer/timer.hpp>
或google benchmark
来为您的代码计时。