Question

作为一个测试项目，我用计算机着色器（Vulkan）编写了Consway的基本生活游戏。基本上：

“板”存储在存储缓冲区内部的int数组中。

#define WIDTH 800
#define HEIGHT 600
#define WORKGROUP_SIZE 32

layout (local_size_x = WORKGROUP_SIZE, local_size_y = WORKGROUP_SIZE, local_size_z = 1) in;

layout(binding = 0) readonly buffer buf1 {
   int data[WIDTH][HEIGHT];
} previousBoard;

layout(binding = 1) buffer buf2 {
   int data[WIDTH][HEIGHT];
} nextBoard;

计算着色器然后每帧更新一次（每个像素调用一次）。

我随机进行了一些更改，并且我注意到，如果我使用data[y][x]（从gl_GlobalInvocationID.xy）访问数组，则程序比使用{的常规访问速度快了 3倍。 {1}}（至少在我的计算机（intel UHD 620）上，使用[x] [y]的速度为500 fps，而使用[y] [x]的速度为1700 fps）。

我花了几个小时来隔离这种行为，以确保这不是副作用。我什至反汇编了Spir-v代码，但发现没有什么有趣的东西可以帮助我理解。这里是着色器的差异（具有[x] [y]和[y] [x]）：https://www.diffchecker.com/vFlkEsQp。

我远远不了解这里发生的事情。有什么原因可以解释这种性能差异吗？

我对使用[y] [x]不太满意（还是应该？），所以我还有另一种方法可以使[x] [y]达到类似的效果吗？

Answer 1

几乎可以肯定，这是缓存一致性的问题。在GLSL中，int[WIDTH][HEIGHT]是HEIGHT WIDTH个int一维数组的数组。那是主要的。因此，如果您获取previousBoard.data[0][0]，则将获取一条缓存行（假定为32字节），其中可能包括第一行的后7个元素，以及第二行的 none 。

您的着色器本身是在2D模型中执行的，在工作组内调用32x32。如果GPU同时执行第一行的调用（0,0到31,0），则只需要执行4次实际的内存提取。现在，当然，要对所有这些条目执行算法，您将同样需要上一行和下一行，并在右侧添加一条用于存储地址的缓存行。

因此，总共需要15次内存提取。听起来可能很多。

但是，让我们研究一下GPU执行第一个列的调用的情况：0,0到0.31。那么，您需要多少次提取？您需要33（底部下方的行为+1），是数字的两倍。请记住：缓存行主要是行，而不是列。

当然，您将需要进行同样多的高速缓存行写操作。

也就是说，列第一调用的顺序应该能够提高性能，因为第二列的调用应该获得与第一列相同的缓存行。但这假设实现将在同一时间执行第二列的调用。如果它决定用更多工作组填充其执行单元（即，执行第0列，第32列，第64列，第96列等），那么您可能还没有缓存。

相比之下，行优先顺序保持合理的缓存一致性，而与执行顺序无关。

您无法更改GPU处理调用的顺序。因此，相反，您应该努力使算法尽可能少地关注该顺序。

首先，由于工作组之间的调用之间没有依赖关系，因此您不应该将local_size设为二维。您可以使用确切的数字来找到正确的硬件值，但是16x1或32x1可能会起作用。无法保证调用顺序，但是工作组中适合波前的项目往往会一起执行。因此，这将鼓励它以行为主的方式工作，执行0,0; 1,0;等。

第二，请减少您正在使用的空间量。生命游戏的一个细胞恰好具有两种状态。但是您正在使用 32位存储这两个状态。即使您想避免进行严重的位操作的麻烦，也可以至少将uint的每个字节都作为一个单独的单元。从uint中提取第N个字节非常简单。

棘手的部分将是编写此类数据，因为您有不同的调用来编写单独的数据。但是，如果我们假设您在开始之前已将内存清除为零，则可以使用atomicOr来写入值。

第三，对数据进行细化处理。也就是说，与其将其存储为行和列，不如将其存储在块中。您遇到的主要问题是因为缓存偏向第一个坐标，但是GPU的执行偏向第二个坐标。

未混淆的数据将（0，0）放在字节0，将（1，0）放在字节4，并将（0，1）放在字节（4 * WIDTH）。使用swizzling时，您要做的是将四个字节0,0放进去； 1,0; 0,1和1,1都在同一高速缓存行上。也就是说，（0，1）在字节8，而（1，1）在字节12。这样，如果获取（1，1），则可以确保在同一缓存行中获得所有4个值。

您可以使用旋转模式的大小来获得最佳性能。

除此之外，您甚至可以使gl_InvocationID混乱。不必依赖调度的2D性质来获取调用的源位置，而是可以使调度为一维，并通过via毛矩阵计算调用的xy位置。因此，调用0为（0，0），调用1为（1，0），调用2为（0，1），调用3为（1，1），依此类推。

如果进行工作以尽可能地获得最佳的数据存储，并且出现混乱，则每个缓存行可以代表一个8x8的数据块。这意味着任何连续执行的调用组最多只需要4条缓存行值的数据（在4个块的角处）。此外，这还有助于解决写入问题，因为您可以通过原子操作将数据构建到shared变量中，并只需在最后写出值即可。您可以安排事情，以便不需要来自单独工作组的两次调用都需要写入相同的值。

这将使所有事情几乎都独立于GPU执行。

存储缓冲区-与[y] [x]一起使用的int数组比与[x] [y]一起使用的int数组快3倍？

1 个答案: