应用错误收集

使用half_floats获取顶点属性可获得多少穿孔？

时间：2015-02-27 12:28:21

标签： performance opengl directx gpu

目前我有一个动态VBO（每帧更新一次，粒子系统）。我发送了4个漂浮物用于pos和4个漂浮物用于颜色。

如果我转移到half_float数据类型，我可以期待多少穿孔？它是5％还是30％？

让我们假设我想以点精灵发送100k ... 500k粒子。所以我发送大约100k * 8 * 4bytes = ~3MB

当然我知道各种GPU之间可能存在差异......

2 个答案:

答案 0 :(得分：2)

每次更改数据时，为每次浮点数保存的2个字节的转换，从全浮点数转换为半浮点数的费用更高。

因此，从长远来看，检查什么可以为您节省更多，更少的内存带宽或花费更多时间来填充VBO。如果CPU经常处于空闲状态（等待vsync），那么以cpu时间为代价优化带宽将会胜出，但是如果花费大量时间在CPU上进行物理操作那么你就无法转换为半浮动

除非你有一个very efficient conversion函数用于通常不内置的类型，并且你可以承受CPU命中率，否则我不会打扰。

鉴于您正在寻找更紧凑的数据格式，我建议使用线性标度（u）int16（将uniform设置为true以将{-32768,32767}映射到{-1,1}或{0,65565}相反，如果你不需要接近0的精度，那么这将提供更好的准确性。

答案 1 :(得分：1)

开始时很可能不需要4个颜色浮点数。

你可能可以使用4个无符号字节。从8位定点数到浮点数的转换在GPU上是非常便宜的（这是他们最初设计的那样），因此您可以将颜色内存需求降低75％而不会产生固有的性能影响。当然，正如其他人所提到的，对齐成为一个问题。从16字节更改为4字节颜色很容易弄乱vec4对齐的顶点数据结构，除非您填充它，添加一些额外的属性（比如说3D顶点法线）或更改数据结构的另一个成员。

vec3位置加上4字节颜色非常适合缓存边界，除非您实际使用非 1.0 齐次坐标（严重）？这将为您提供与将所有内容切换为半浮点数相同的内存要求，但您仍然可以获得完全精确的位置。