Question

我一直在尝试编写一般计算着色器高斯模糊实现。

它基本上可以工作，但它包含的工件即使场景是静态的，也会改变每一帧。我花了几个小时试图调试这个。我已经消失了，确保没有超出限制，展开所有循环，用常量替换制服，但工件仍然存在。

我在3台不同的机器/ GPU（2个nvidia，1个intel）上测试了带有工件的原始代码，它们都产生了相同的结果。使用普通C ++代码模拟执行向前和向后执行的工作组的代码执行的展开/常量版本不会产生这些错误。

通过分配[96] [96]而不是[16] [48]的共享数组，我可以消除大部分工件。

这让我觉得我错过了一个逻辑错误，因此我设法制作了一个非常简单的着色器，它仍然会在较小的范围内产生错误，如果有人能指出，我会很感激原因。我已经检查了很多文档，但找不到任何错误。

分配了一个16x48浮点数的共享数组，这是3072字节，大约是最小共享内存限制的10％。

着色器在16x16工作组中启动，因此每个线程将写入3个唯一位置，并从单个唯一位置读回

然后将纹理渲染为HSV，其中0-1之间的值将映射到色调0-360（红色 - 青色 - 红色），超出范围的值将为红色。

#version 430
//Execute in 16x16 sized thread blocks
layout(local_size_x=16,local_size_y=16) in;
uniform layout (r32f) restrict writeonly image2D _imageOut;
shared float hoz[16][48];
void main () 
{
    //Init shared memory with a big out of bounds value we can identify
    hoz[gl_LocalInvocationID.x][gl_LocalInvocationID.y] = 20000.0f;
    hoz[gl_LocalInvocationID.x][gl_LocalInvocationID.y+16] = 20000.0f;
    hoz[gl_LocalInvocationID.x][gl_LocalInvocationID.y+32] = 20000.0f;
    //Sync shared memory
    memoryBarrierShared();
    //Write the values we want to actually read back
    hoz[gl_LocalInvocationID.x][gl_LocalInvocationID.y] = 0.5f;
    hoz[gl_LocalInvocationID.x][gl_LocalInvocationID.y+16] = 0.5f;
    hoz[gl_LocalInvocationID.x][gl_LocalInvocationID.y+32] = 0.5f;
    //Sync shared memory
    memoryBarrierShared();
    //i=0,8,16 work
    //i=1-7,9-5,17 don't work (haven't bothered testing further
    const int i = 17;
    imageStore(_imageOut, ivec2(gl_GlobalInvocationID.xy), vec4(hoz[gl_LocalInvocationID.x][gl_LocalInvocationID.y+i]));
    //Sync shared memory (can't hurt)
    memoryBarrierShared();
}

使用大于8x8的发射尺寸启动此着色器会在图像的受影响区域中产生伪影。

glDispatchCompute(9, 9, 0); glMemoryBarrier(GL_SHADER_IMAGE_ACCESS_BARRIER_BIT);

我不得不使用断点和步进帧来捕获它，花了大约14帧

glDispatchCompute(512/16, 512/16, 0);//Full image is 512x512 glMemoryBarrier(GL_SHADER_IMAGE_ACCESS_BARRIER_BIT);

我再次使用断点和步进帧来捕获它，当以60FPS（vsync）运行时，工件更频繁/同时出现。

Answer 1

memoryBarrierShared();

不，这只会使可见写入其他调用。如果您希望能够从其他调用中读取，则必须确保所有写入实际发生。数据

这是通过the barrier function完成的。 memoryBarrierShared之后应该称为。

计算着色器共享内存包含工件

1 个答案: