在Radeon

时间:2016-10-11 14:59:54

标签: opencl aparapi

我试图在OpenCL中对一个大的双数组进行简单的简化(在这种情况下是一个和)。我查看了在线教程,发现这基本上是解决我问题的方法:

#pragma OPENCL EXTENSION cl_khr_fp64 : enable

typedef struct This_s{
   __global double *nums;
   int nums__javaArrayLength;
   __local double *buffer;
   __global double *res;
   int passid;
}This;
int get_pass_id(This *this){
   return this->passid;
}
__kernel void run(
   __global double *nums, 
   int nums__javaArrayLength, 
   __local double *buffer, 
   __global double *res, 
   int passid
){
   This thisStruct;
   This* this=&thisStruct;
   this->nums = nums;
   this->nums__javaArrayLength = nums__javaArrayLength;
   this->buffer = buffer;
   this->res = res;
   this->passid = passid;
   {
      int tid = get_local_id(0);
      int i = (get_group_id(0) * get_local_size(0)) + get_local_id(0);
      int gridSize = get_local_size(0) * get_num_groups(0);
      int n = this->nums__javaArrayLength;
      double cur = 0.0;
      for (; i<n; i = i + gridSize){
         cur = cur + this->nums[i];
      }
      this->buffer[tid]  = cur;
      barrier(CLK_LOCAL_MEM_FENCE);
      barrier(CLK_LOCAL_MEM_FENCE);
      if (tid<32){
         this->buffer[tid]  = this->buffer[tid] + this->buffer[(tid + 32)];
      }
      barrier(CLK_LOCAL_MEM_FENCE);
      if (tid<16){
         this->buffer[tid]  = this->buffer[tid] + this->buffer[(tid + 16)];
      }
      barrier(CLK_LOCAL_MEM_FENCE);
      if (tid<8){
         this->buffer[tid]  = this->buffer[tid] + this->buffer[(tid + 8)];
      }
      barrier(CLK_LOCAL_MEM_FENCE);
      if (tid<4){
         this->buffer[tid]  = this->buffer[tid] + this->buffer[(tid + 4)];
      }
      barrier(CLK_LOCAL_MEM_FENCE);
      if (tid<2){
         this->buffer[tid]  = this->buffer[tid] + this->buffer[(tid + 2)];
      }
      barrier(CLK_LOCAL_MEM_FENCE);
      if (tid<1){
         this->buffer[tid]  = this->buffer[tid] + this->buffer[(tid + 1)];
      }
      barrier(CLK_LOCAL_MEM_FENCE);
      if (tid==0){
         this->res[get_group_id(0)]  = this->buffer[0];
      }
      return;
   }
}

如果你想知道奇怪的this,那是一个(不幸的是必要的)aparapi工件,我用它将Java翻译成OpenCL。

我的内核产生了正确的结果,并且在相当强大的Nvidia硬件上,它比Java中的顺序总和快约10倍。但是在Radeon R9 280上,它的性能与简单的Java代码相当。

我用CodeXL分析了内核。它告诉我,MemUnitBusy只有6%。为什么这么低?

2 个答案:

答案 0 :(得分:0)

结果显示OpenCL没有(直接)出错,但是aparapis缓冲区管理是。

我尝试了没有aparapi的完全相同的内核,性能很好。一旦我使用CL_MEM_USE_HOST_PTR,它就会变坏,这是使用aparapi时唯一的选择。似乎AMD没有使用该选项将主机内存复制到设备,即使经过几次&#34;热身&#34;运行。

答案 1 :(得分:0)

您可能需要考虑转移到aparapi.com处于更活跃的项目。它包含几个错误的修复程序,以及上面链接的旧库中的许多额外功能和性能增强功能。它也在maven中心有大约十几个版本。所以它更容易使用。新的Github repository is here