标签: cuda
据我所知,在指定一个threadblock时,建议创建它的线程数等于32的某个倍数,因为warp大小为32.那么是否建议指定网格尺寸为32的倍数?
答案 0 :(得分:3)
网格以块为单位进行处理。块的数量没有特别依赖于32 - 所有块都是相互独立的。
如果可能的话,通常建议至少有足够的块来使GPU饱和。这里的经验法则有点软弱,但GPU中每个SM至少拍摄4-8个块通常是一个很好的起点。小于此的问题大小可能不会使GPU饱和。