标签: cuda
我认为既然CUDA可以进行64位128位加载/存储,那么它可能会有一些用于添加/减去/等的内在函数。像SS3这样的矢量类型,像SS3这样的指令更少。
CUDA有没有这样的功能?
答案 0 :(得分:1)
不,不。每个线程(从Kepler开始)一次只能运行1个单精度浮点运算,但FMA除外 - 它可以在一条指令中执行1次乘法和1次加法(z = a * x + y)。