标签: performance cuda memory-bandwidth
从线程调度和内存带宽的角度来看,这两个块大小(1024x1对32x32)的预期如何?这2个块大小的性能是否有任何预期的差异?请注意,每个块使用1024个线程。
答案 0 :(得分:3)
Threadblock维度,特别是当我们讨论每个块的相同数量的线程时,它们本身不会影响性能。
主题仍然是grouped for execution into warps。线程块尺寸的唯一直接影响是更改内置变量,例如传递给每个线程的threadIdx.x,blockIdx.x等,这不是性能问题。
threadIdx.x
blockIdx.x