标签: arrays cuda sum shared-memory reduction
我正在研究一个cuda项目,当大小不是2的幂时,我无法弄清楚如何减少阵列。
此处存在许多与此相关的问题,但在我的情况下,核心已经使用2d块2d网格配置启动,并且阵列位于共享内存中。我不认为填充是一个选项,因为数组的大小如果280到300,并且必须填充多达512个元素。有没有有效的算法。