标签: cuda gpu vectorization nvidia avx
由于英特尔CPUS具有AVX指令集,该指令集利用256/512字节XMM寄存器对数据进行向量运算。 Nvidia是否支持任何此类向量操作,我希望一次使用128/256字节的数据。 Nvidia GPUS是否有任何特定的硬件支持? 我已经看到了一些用于矢量处理的Cuda APIS,但我相信这些是内部数组实现并且是串行实现的。