我想稍微了解OpenMP,因为我想要一个巨大的循环并行化。经过一些阅读(SOCommon OMP mistakestutorial等)后,我将第一步作为下面给出的基本工作的c / mex代码(这会产生不同的第一步)测试用例)。

  • 第一个测试总结了结果值 - 函数serial, parallel - ,
  • 第二个从输入数组中获取值并将处理后的值写入输出数组 - 函数serial_a, parallel_a


  1. 为什么第一次测试的结果不同,i。即serialparallel
  2. 的结果
  3. 令人惊讶的是,第二次测试成功了。我关心的是,如何处理可能由多个线程读取的内存(数组位置)?在示例中,这应该由a[i])/cos(a[n-i]模拟。
  4. 是否有一些简单的规则如何确定哪些变量要声明为私有共享减少
  5. 在这两种情况下,int i都在pragma之外,但第二次测试似乎会产生正确的结果。可以,或者i被移到pragma omp parallel区域,as being said here
  6. 关于发现错误的其他任何暗示?
  7. 代码

    #include "mex.h"
    #include <math.h>
    #include <omp.h>
    #include <time.h>
    double serial(int x)
        double sum=0;
        int i;
        for(i = 0; i<x; i++){
            sum += sin(x*i) / cos(x*i+1.0);
        return sum;
    double parallel(int x)
        double sum=0;
        int i;
        #pragma omp parallel num_threads(6) shared(sum) //default(none) 
            //printf("    I'm thread no. %d\n", omp_get_thread_num());
            #pragma omp for private(i, x) reduction(+: sum)
            for(i = 0; i<x; i++){
                sum += sin(x*i) / cos(x*i+1.0);
        return sum;
    void serial_a(double* a, int n, double* y2)
        int i;
        for(i = 0; i<n; i++){
             y2[i] = sin(a[i]) / cos(a[n-i]+1.0);
    void parallel_a(double* a, int n, double* y2)
        int i;
        #pragma omp parallel num_threads(6)
            #pragma omp for private(i)
            for(i = 0; i<n; i++){
                y2[i] = sin(a[i]) / cos(a[n-i]+1.0);
    void mexFunction(int nlhs, mxArray* plhs[], int nrhs, const mxArray* prhs[])
        double sum, *y1, *y2, *a, s, p;
        int x, n, *d;
        /* Check for proper number of arguments. */
        if(nrhs!=2) {
            mexErrMsgTxt("Two inputs required.");
        } else if(nlhs>2) {
            mexErrMsgTxt("Too many output arguments.");
        /* Get pointer to first input */
        x = (int)mxGetScalar(prhs[0]);
        /* Get pointer to second input */
        a = mxGetPr(prhs[1]);
        d = (int*)mxGetDimensions(prhs[1]);
        n = (int)d[1]; // row vector
        /* Create space for output */
        plhs[0] = mxCreateDoubleMatrix(2,1, mxREAL);
        plhs[1] = mxCreateDoubleMatrix(n,2, mxREAL);
        /* Get pointer to output array */
        y1 = mxGetPr(plhs[0]);
        y2 = mxGetPr(plhs[1]);
        {   /* Do the calculation */
            clock_t tic = clock();
            y1[0] = serial(x);
            s = (double) clock()-tic;
            printf("serial....: %.0f ms\n", s);
            tic = clock();
            y1[1] = parallel(x);
            p = (double) clock()-tic;
            printf("parallel..: %.0f ms\n", p);
            printf("ratio.....: %.2f \n", p/s);
            tic = clock();
            serial_a(a, n, y2);
            s = (double) clock()-tic;
            printf("serial_a..: %.0f ms\n", s);
            tic = clock();
            parallel_a(a, n, &y2[n]);
            p = (double) clock()-tic;
            printf("parallel_a: %.0f ms\n", p);
            printf("ratio.....: %.2f \n", p/s); 


    >> mex omp1.c
    >> [a, b] = omp1(1e8, 1:1e8);
    serial....: 13399 ms
    parallel..: 2810 ms
    ratio.....: 0.21 
    serial_a..: 12840 ms
    parallel_a: 2740 ms
    ratio.....: 0.21 
    >> a(1) == a(2)
    ans =
    >> all(b(:,1) == b(:,2))
    ans =


    MATLAB Version: (R2012b)
    Operating System: Microsoft Windows 7 Version 6.1 (Build 7601: Service Pack 1)
    Microsoft Visual Studio 2005 Version 8.0.50727.867

#pragma omp parallel reduction(+:sum) private(i) shared(x)
    #pragma omp for 
    for(i = 0; i<x; i++){
        sum += sin(x*i) / cos(x*i+1.0);


#pragma omp parallel for reduction(+:sum)
for(i = 0; i<x; i++){
    sum += sin(x*i) / cos(x*i+1.0);

请注意,此序列号和序列号之间的唯一区别是pragma语句。 OpenMP旨在让您不必更改代码,除了编译指示声明。


#pragma omp parallel for
for(i = 0; i<n; i++){
    y2[i] = sin(a[i]) / cos(a[n-i]+1.0);



for(i=0; i<n; i++) {
    for(j=0; j<m; j++) {

如果使用#pragma parallel fori迭代器将被设为私有,但j迭代器将被共享。这是因为parallel for仅适用于i之外的外部循环,并且由于j默认共享,因此不会将其设为私有。在这种情况下,您需要明确声明j私有,如#pragma parallel for private(j)