常量缓冲区和只读结构化缓冲区有什么区别?

时间:2021-06-03 01:01:50

标签: directx hlsl direct3d directx-12

我想知道最好使用哪种资源类型,以便为静态数据保留尽可能多的元素,并且在绘制调用期间不会更改。我能分辨出常量缓冲区和只读结构化缓冲区之间的唯一区别是常量缓冲区数据必须在其 ID3D12Resource 对象内部对齐 256 字节。

lights.hlsl

#define as_many_as_possible 1000

struct light
{
    float3 position;
    float falloff_start;
    float3 direction;
    float falloff_end;
    float3 color;
    float3 strenght;
};

struct light_data
{
    light lights [as_many_as_possible];
};
ConstantBuffer<light_data> cb_lights : register(b0);

// Versus

StructuredBuffer<light> sb_lights : register(s0);

如果我的目标是保存尽可能多的灯光数据,哪个更好?

1 个答案:

答案 0 :(得分:2)

常量缓冲区和结构化缓冲区之间存在更多差异。

在常量缓冲区中,只有 64k 的数据可以同时可见,因此您不能拥有 1mb 的数据并在着色器中立即可见,而在结构化缓冲区中却是可能的。

常量缓冲区比结构化缓冲区具有更复杂的对齐规则,您的示例实际上非常适合它:

在结构化缓冲区的情况下,您的轻型结构的大小为:

struct light
{
    float3 position; /12
    float falloff_start; /4 -> 16
    float3 direction; /12 -> 28
    float falloff_end; /4 -> 32
    float3 color; /12 -> 44
    float3 strenght; /12 -> 56
};

因此您的数据将被解释为 56 字节结构的数组。

但是,常量缓冲区结构对齐需要 16 字节,因此您的结构将被解释为:

struct light
{
    float3 position; /12
    float falloff_start; /4 -> 16
    float3 direction; /12 -> 28 (not 16 byte boundary crossing)
    float falloff_end; /4 -> 32
    float3 color; /12 -> 44 (no 16 byte boundary crossing)
    float pad; /4 -> 48 (float3 would cross 16 boundary)
    float3 strenght; /12 -> 60
    float pad2; /4 ->64 (next float3 would cross 16 boundary, which is the next position in the array, there is no end padding for the last element of the array however)

所以你的灯将是 64 字节(需要匹配你的 cpu 结构,否则你的数据将不匹配)。

在某些硬件上,由于这些限制,在常量缓冲区与结构化缓冲区的情况下,读取访问可以得到更优化。这取决于许多因素(例如,着色器中的读取频率),因此您需要进行分析以了解您的用例有何不同。

此外,一些供应商(如 NVidia)建议出于性能原因(在结构化缓冲区的情况下)结构应与 16 字节边界对齐,因此在您的情况下,结构将是:

struct light
{
    float3 position; /12
    float falloff_start; /4 -> 16
    float3 direction; /12 -> 28
    float falloff_end; /4 -> 32
    float3 color; /12 -> 44
    float3 strenght; /12 -> 56
    float2 _pad;
};