我正在尝试使用半精度进行GPGPU计算。我需要清除混乱
我可以同时找到所有这些东西的参考;
支持作为纹理格式的半浮点数据类型,通过纹理硬件自动将半精度转换为浮点数,仅在设备上支持 floattohalf 和 halftofloat 转换函数,并存储 unsigned short 格式的半精度值。
所以这一切都有意义,我做了这些推论。
CUDA支持两种处理半精度的方法。
将浮动数存储在全局内存中。通过 halftofloat 将它们转换为一半,存储在全局内存中的unsigned short中,并在执行任何操作之前通过 halftofloat 重新转换为float。
(因为纹理存储器是从设备只读的)在主机中存储在无符号短路中的半精度数,从主机代码存储在纹理存储器中,通过内部TEX函数读取并对其执行操作(无需要转换为浮动)。
如果我错了,请纠正我?