如何使用OpenACC优化矩阵乘法?

时间:2012-08-03 08:13:29

标签: cuda opencl gpgpu openacc

我正在学习OpenACC(使用PGI的编译器)并尝试优化矩阵乘法示例。到目前为止我提出的最快的实现如下:

void matrix_mul(float *restrict r, float *a, float *b, int N, int accelerate){

#pragma acc data copyin (a[0: N * N ], b[0: N * N]) copyout (r [0: N * N ]) if(accelerate)
{
# pragma acc region if(accelerate)
{
# pragma acc loop independent vector(32) 
for (int j = 0; j < N; j ++)
{    
   # pragma acc loop independent vector(32) 
   for (int i = 0; i < N ; i ++ )
   {
      float sum = 0;
      for (int k = 0; k < N ; k ++ ) {
         sum += a [ i + k*N ] * b [ k + j * N ];
      }
      r[i + j * N ] = sum ;
   }
}
}
}

这导致大小为32x32线程的线程块,并为我提供了迄今为止最好的性能。 以下是基准:

Matrix multiplication (1500x1500): 
GPU: Geforce GT650 M, 64-bit Linux 

Data sz             : 1500     
Unaccelerated:
     matrix_mul() time    : 5873.255333 msec
Accelerated:
     matrix_mul() time    : 420.414700 msec

Data size             : 1750 x 1750     
    matrix_mul() time    : 876.271200 msec
Data size             : 2000 x 2000     
    matrix_mul() time    : 1147.783400 msec
Data size             : 2250 x 2250     
    matrix_mul() time    : 1863.458100 msec
Data size             : 2500 x 2500     
    matrix_mul() time    : 2516.493200 msec

不幸的是,我意识到生成的CUDA代码非常原始(例如,它甚至不使用共享内存),因此无法与手动优化的CUDA程序竞争。作为参考实现,我使用了以下结果的Arrayfire lib:

Arrayfire 1500 x 1500 matrix mul
CUDA toolkit 4.2, driver 295.59
GPU0 GeForce GT 650M, 2048 MB, Compute 3.0 (single,double)
Memory Usage: 1932 MB free (2048 MB total)
af:  0.03166 seconds

Arrayfire 1750 x 1750 matrix mul
 af:  0.05042 seconds
Arrayfire 2000 x 2000 matrix mul
 af:  0.07493 seconds
Arrayfire 2250 x 2250 matrix mul
 af:  0.10786 seconds
Arrayfire 2500 x 2500 matrix mul
 af:  0.14795 seconds

我想知道如何从OpenACC获得更好的性能? 也许我选择的指令不对?

1 个答案:

答案 0 :(得分:5)

你的速度提升了14倍,根据我的经验,PGI的编译器非常好。

首先,您是否正在使用-Minfo进行编译?这将为编译器提供有关优化选择的大量反馈。

您正在使用32x32线程块,但根据我的经验,16x16线程块往往会获得更好的性能。如果省略vector(32)子句,编译器会选择什么调度?

使用restrict声明a和b可能会让编译器生成更好的代码。

仅仅通过查看代码,我不确定共享内存是否有助于提高性能。如果您的代码可以在那里存储和重用值而不是转到全局内存,则共享内存仅有助于提高性能。在这种情况下,您在阅读之后不会重复使用a或b的任何部分。

值得注意的是,在共享内存使用方面,我对PGI的编译器有过糟糕的经历。它有时会做有趣的事情并缓存错误的值(如果你向后迭代一个循环似乎主要发生),产生错误的结果。我实际上必须使用未记录的-ta = nvidia,nocache选项编译我当前的应用程序,以通过完全绕过共享内存使用来使其正常工作。