内存合并与矢量化内存访问

时间:2019-07-10 08:26:25

标签: cuda gpu cpu-architecture simd coalescing

我试图了解NVIDIA GPU / CUDA上的内存合并与x86-SSE / C ++上的矢量化内存访问之间的关系。

据我了解:

  • 内存合并是对内存控制器的运行时优化(在硬件中实现)。在运行时确定需要多少内存事务来完成扭曲的加载/存储。除非有完美的合并,否则扭曲的加载/存储指令可能为issued repeatedly
  • 内存向量化是编译时优化。矢量化加载/存储的内存事务数是固定的。每个向量加载/存储指令仅发出一次。
  • 可压缩的GPU加载/存储指令比SSE矢量加载/存储指令更具表现力。例如,st.global.s32 PTX指令可以存储到32个任意存储位置(warp大小为32),而movdqa SSE指令只能存储到连续的内存块中。
  • CUDA中的
  • 内存合并似乎可以确保有效的 vectorized 内存访问(当访问可以合并时),而在x86-SSE上,我们必须希望编译器实际对代码进行矢量化(可能无法这样做)或使用SSE内在函数手动对代码进行矢量化处理,这对程序员来说更加困难。

这是正确的吗?我是否错过了一个重要方面(也许是线程屏蔽)?

现在,为什么GPU具有运行时合并功能?这可能需要硬件中的额外电路。与CPU中的编译时合并相比,主要好处是什么?是否存在由于缺少运行时合并而更难在CPU上实现的应用程序/内存访问模式?

2 个答案:

答案 0 :(得分:3)

caveat:我不太了解GPU的体系结构/微体系结构。问题和其他人在这里的评论/答案中写下的内容使这种理解加深了。

GPU允许一条指令对多个数据进行操作的方式与CPU SIMD完全不同。这就是为什么他们需要为内存合并提供特别支持的原因。无法以需要的方式对CPU-SIMD进行编程。

顺便说一句,在实际的DRAM控制器介入之前,CPU具有缓存来吸收对同一缓存行的多次访问。 GPU当然也具有缓存。


是的,内存聚集基本上是在运行时执行的,而短向量CPU SIMD在编译时在单个“内核”中执行。 等效于CPU-SIMD的是收集/分散加载/存储,它们可以优化为对相邻索引的高速缓存进行单一的广泛访问。现有的CPU不会这样做:每个元素分别在以下位置访问高速缓存一个聚会。如果您知道许多索引将相邻,则不应该使用聚集负载。更快地将128位或256位数据块重组到位。对于所有数据都是连续的常见情况,您只需使用普通的向量加载指令,而不是聚集加载。

现代短向量CPU SIMD的要点是通过提取/解码/执行管道提供更多的工作,而无需,从而使其在必须解码+跟踪+执行更多方面更加广泛每个时钟周期都有CPU指令。由于大多数代码中没有很多ILP,因此在大多数情况下,快速扩大CPU管道的效率会降低收益。

通用CPU在指令调度/乱序执行机制上花费了大量晶体管,因此仅使其扩展以能够并行运行更多微指令是不可行的。 (https://electronics.stackexchange.com/questions/443186/why-not-make-one-big-cpu-core)。

要获得更高的吞吐量,我们可以提高频率,提高IPC并使用SIMD按照乱序机器必须跟踪的指令/指令执行更多的工作。 (而且我们可以在单个芯片上构建多个内核,但是它们之间的高速缓存一致性互连+ L3高速缓存+内存控制器很难)。现代CPU使用了所有这些东西,因此我们获得的总吞吐能力为频率* IPC * SIMD,如果我们使用多线程,则总吞吐能力乘以内核数。它们并不是彼此可行的替代方案,它们是正交的事情,您必须做所有这些事情才能通过CPU管道驱动大量FLOP或整数工作。

这就是CPU SIMD具有宽固定宽度执行单元的原因,而不是每个标量操作都有单独的指令的原因。没有一种机制可以将一个标量指令灵活地馈送到多个执行单元。

要利用此优势,不仅需要在加载/存储时进行矢量化,还需要在ALU计算中进行矢量化。如果数据不是连续的,则必须使用标量负载+随机播放,或者使用AVX2 / AVX512来收集其基址+(标度)索引矢量的负载,将其收集到SIMD向量中。


但是GPU SIMD不同。这是针对大量并行问题的,其中您对每个元素执行相同的操作。 “管道”可以非常轻巧,因为它不需要支持乱序的exec或寄存器重命名,尤其是分支和异常。这使得仅具有标量执行单元而不用处理来自连续地址的固定块中的数据成为可能。

这是两个非常不同的编程模型。它们都是SIMD,但是运行它们的硬件的细节却大不相同。


  

每个向量加载/存储指令仅发出一次。

是的,在逻辑上是正确的。实际上,内部可能会稍微复杂一些,例如AMD Ryzen将256位矢量运算分为128位,或者Intel Sandybridge / IvB这样做,仅用于加载和存储,同时具有256位宽的FP ALU。

在Intel x86 CPU上,未对齐的加载/存储会有一点皱纹:在高速缓存行拆分中,必须重播uop(从预留站)以进行访问的另一部分(到另一高速缓存行) )。

在Intel术语中,两次分配负载的uop 已分派两次,但仅一次发行+退役。

对齐的加载/存储,如movdqamovdqu,当内存在运行时恰好对齐时,仅是对L1d缓存的单个访问(假设有缓存命中)。除非您使用的是将向量指令解码为两半的CPU,例如AMD的256位向量。


但是这些东西完全在CPU内核内部,可以访问L1d缓存。 CPU <->内存事务位于整个缓存行中,具有回写L1d / L2专用缓存,并在现代x86 CPU上共享L3 -Which cache mapping technique is used in intel core i7 processor?(自Nehalem以来为Intel i3 / i5 / i7系列,AMD,因为我认为Bulldozer自推出了L3缓存。)

在CPU中,无论您是否使用SIMD,基本上都是将写回L1d缓存合并到整个缓存行中的事务。

SIMD可以帮助在CPU内完成更多工作,以跟上更快的内存。或者对于数据适合L2或L1d缓存的问题,请真正快速查看该数据。

答案 1 :(得分:0)

内存合并与parallel访问有关:当SM中的每个内核将访问后续的内存位置时,将优化内存访问。

Viceversa,SIMD是单核优化:当向量寄存器中填充有操作数并且执行SSE操作时,并行性在CPU内核内部,每个时钟周期在每个内部逻辑单元上执行一次操作。 / p>

但是,您是对的:合并/非终止内存访问是运行时方面。 SIMD操作已编译。我认为它们无法很好地进行比较。

如果要进行并行处理,可以将GPU中的合并与CPU中的内存预取进行比较。这也是非常重要的运行时优化-我相信使用SSE在后台也很活跃。

但是,没有什么比在Intel CPU内核中发挥作用更重要。由于缓存的一致性,优化并行内存访问的最佳方法就是让每个核心访问独立的内存区域。

  

现在,为什么GPU具有运行时合并功能?

图形处理经过优化,可在相邻元素上并行执行单个任务。

例如,考虑对图像的每个像素执行操作,将每个像素分配给不同的核心。现在很明显,您希望有一条最佳路径来加载将一个像素扩散到每个核心的图像。

这就是为什么内存合并深深地埋在GPU架构中。