标签: cuda
CUDA编程指南有如下说法:
warp一次执行一条通用指令,因此当warp的所有32个线程在其执行路径上达成一致时,可以实现全部效率。如果warp的线程通过依赖于数据的条件分支发散,则warp串行执行所采用的每个分支路径,禁用不在该路径上的线程,并且当所有路径完成时,线程会聚回到相同的执行路径。
由于一次只有一条通用指令,我正在考虑锁步。