应用错误收集

我用我的GPU执行大量的整数运算。 mul24()和mad24()非常有助于获得显着的整数性能提升。遗憾的是，我的一些内核需要超过24位的整数，迫使我使用编译器生成的代码，这并不总是最佳的。如果我可以访问相当于mul_hi()但对于24位整数的硬件指令，请将其命名为mul24_hi()，我的GPU会获得更好的性能。

是否有等价于mul_hi()但是对于24位整数或任何模式/习语/变通方法来可靠地指示编译器发出它？

OpenCL 24位mul_hi内置函数

0 个答案: