访问/同步到本地内存

时间:2016-12-07 21:33:43

标签: opencl gpu nvidia gpgpu

我对GPGPU编程很陌生。我试图实现需要大量同步的算法,因此它只使用一个工作组(全局和本地大小具有相同的值)

我有一个问题:我的程序工作正常,直到问题的大小超过32。

__kernel void assort(
__global float *array,
__local float *currentOutput,
__local float *stimulations,
__local int *noOfValuesAdded,
__local float *addedValue,
__local float *positionToInsert,
__local int *activatedIdx,
__local float *range,
int size,
__global float *stimulationsOut
)
{
int id = get_local_id(0);
if (id == 0) {...}

barrier(CLK_LOCAL_MEM_FENCE);

for (int i = 2; i < size; i++) 
{
    int maxIdx;
    if (id == 0) 
   {
   addedValue[0] = array[i];
   {...}
   }
    barrier(CLK_LOCAL_MEM_FENCE);


    if (id < noOfValuesAdded[0]){...}
    else
        barrier(CLK_LOCAL_MEM_FENCE);
   barrier(CLK_LOCAL_MEM_FENCE);
   if (activatedIdx[0] == -2) {...}
   else {...}

   barrier(CLK_LOCAL_MEM_FENCE);
   if (positionToInsert[0] != -1.0f) {...}

    barrier(CLK_LOCAL_MEM_FENCE);
    stimulationsOut[id] = addedValue[0];
    return;
    }

经过一些调查尝试后,我意识到(通过检查stimulationsOut),addValue [0]从内核的33次异常中获得了不同的值,然后是第65次的另一个值(所以它的类似[123 123 123 ... 123(第33个元素)66 ... 66 66 66 66 66 ..(第65个元素)127 ...... 127 ...])

__ global float *数组是READ_ONLY,如果在for循环中,我不会在first旁边更改addedValue [0]。有什么可以解决这个问题?

我的GPU规格:[https://devtalk.nvidia.com/default/topic/521502/gt650m-a-kepler-part-/]

在评论出两个之后,如果身体问题没有重新确认:

            /*if (activatedIdx[0] == -2) 
        {
            if (noOfValuesAdded[0] == 2) 
            {
                positionToInsert[0] = 0.99f;
            }
            else if (id != 0 && id != maxIdx 
                     && stimulations[id] >= stimulations[(id - 1)]
                     && stimulations[id] >= stimulations[(id + 1)]) 
           {
               if ((1.0f - (fabs((currentOutput[(id - 1)] -  currentOutput[id])) / range[0])) < stimulations[(id - 1)])
                    positionToInsert[0] = (float)id - 0.01f;
                    else
                positionToInsert[0] = (float)id + 0.99f;
            }
        }*/

    if (positionToInsert[0] != -1.0f) 
    {
        float temp = 0.0f;
        /*if ((float)id>positionToInsert[0]) 
        {
            temp = currentOutput[id];
            barrier(CLK_LOCAL_MEM_FENCE);
            currentOutput[id + 1] = temp;
        }
        else 
        {
            barrier(CLK_LOCAL_MEM_FENCE);
        }*/
        barrier(CLK_LOCAL_MEM_FENCE);

        if (id == round(positionToInsert[0])) 
        {
            currentOutput[id] = addedValue[0];
            noOfValuesAdded[0] = noOfValuesAdded[0] + 1;
        }
    }

更新: 在修复障碍之后,算法正常工作,直到大小超过768(这是我的gpu上奇怪的2倍核心数)。我期待,它将最多工作1024个元素,这是最大的工作组大小。我错过了什么吗?

2 个答案:

答案 0 :(得分:0)

warp中的所有工作项都在lock-step中执行相同的指令。 Nvidia的经纱尺寸为32件。如果内核最多可以正常工作32个工作项,这表明障碍存在问题。

barrier的文档说:

  

在处理器上执行内核的工作组中的所有工作项   必须先执行此功能才能允许继续   执行超越障碍。

我可以看到这是你内核中的问题。例如:

if ((float)id>positionToInsert[0]) 
{
    temp = currentOutput[id];
    barrier(CLK_LOCAL_MEM_FENCE); // <---- some work items may meet here
    currentOutput[id + 1] = temp;
}
else 
{
    barrier(CLK_LOCAL_MEM_FENCE); // <---- other work items may meet here
}

您可以通过以下方式解决此问题:

if ((float)id>positionToInsert[0]) 
    temp = currentOutput[id];
barrier(CLK_LOCAL_MEM_FENCE); // <---- here all work items meet at the same barrier
if ((float)id>positionToInsert[0]) 
    currentOutput[id + 1] = temp;

答案 1 :(得分:0)

在修复障碍之后,算法正常工作,直到大小超过768(这是我的gpu上奇怪的2倍核心数)。我期待,它将最多工作1024个元素,这是最大的工作组大小。我错过了什么吗?