具有慢速内存和无缓存的机器的卷积/ FFT算法?

时间:2015-12-17 17:48:04

标签: algorithm opencl fft convolution

我正在尝试使用OpenCL为GPU编写卷积函数。

基准测试表明,GPU的数据加载指令非常昂贵,运行时间与LD指令总数呈线性关系,表明GPU很少或没有缓存。

这导致中小型内核(~48)的卷积效率非常低(约为峰值GFLOPS的1%)。

是否有特定的卷积算法或FFT算法可最大化寄存器中的数据重用(最多可提供64个float4寄存器)并针对内存访问进行了优化?

更新:首选浮点。

0 个答案:

没有答案