标签: cuda reduction
我在前面的帖子中讨论了CUDA中的缩减算法(例如在一系列元素上的求和和最大化),但是通过动态并行性,它们可能以不同的方式实现。是否有更高效的实现可以从内核中调用?
答案 0 :(得分:1)
是否有更高效的实现可以从内核中调用?
CUB提供了与动态并行兼容的CUDA缩减原语,即可以在内核中调用。