c++ - 有效地矢量化图像块处理？

我很好奇当我逐块处理图像时最有效的方法是什么。

那时，我应用了一些矢量化技术，例如我从8x8块读取一行像素（每行8个像素，每个8位深度）。但是，由于现代处理器支持128/256位向量操作，我认为从图像块加载两行像素可以提高代码速度。

但问题是，内存中的图像（例如16x16图像，包含4个8x8块）连续地从第一个像素存储到最后一个像素。加载一个8像素的行很容易，但是我应该如何操作指针或对齐图像数据以便我可以一起加载2行？

我认为这个数字可以清楚地说明我的问题： pixels' address in a image

因此，当我们一起加载8个像素（一行）时，我们只需将初始指针位置的8个字节数据加载1个指令。当我们加载第二行时，我们只需向指针添加9并加载第二行。

所以，问题是，是否有任何方法可以将这两行（16个像素）从初始指针位置加载到一起？

谢谢！

要使每一行对齐，您可以填充每行的末尾。编写代码以支持比行之间的步幅更短的图像宽度，使您的算法可以处理图像的子集。

此外，您实际上并不需要将所有内容对齐以使SIMD正常运行。连续就足够了。大多数SIMD指令集（SSE，NEON等）都有未对齐的加载指令。根据具体实施情况，可能没有太大的惩罚。

您不会将两个不同的行加载到同一SIMD向量中。例如，要使用AVX2 VPSADBW执行8x8 SAD（绝对差值之和），每个32字节负载将从四个不同8x8块的一行中获取数据。但是没关系，你只需要用它来并行生成四个8x8 SAD结果，而不是浪费大量时间来进行单个8x8 SAD。

例如，Intel's MPSADBW tutorial显示了如何使用C和Intel的SSE内在函数实现4x4,8x8和16x16块的详尽运动搜索。显然，实际的MPSADBW指令实际上并不值得在实践中使用，因为它比PSADBW慢，并且你可以通过x264使用的顺序消除穷举搜索更快地获得相同的结果（x264开发人员在{{3}中提到）关于SSE4.1是否会帮助x264。）

Dark Shikari博客档案中的一些SIMD编程博客文章：x264开发者日记：

this forum thread：使用PALIGNR或其他技术设置动态搜索的未对齐输入
Cacheline splits, take two

有效地矢量化图像块处理？

1 个答案: