应用错误收集

CUDA编程指南有如下说法：

warp一次执行一条通用指令，因此当warp的所有32个线程在其执行路径上达成一致时，可以实现全部效率。如果warp的线程通过依赖于数据的条件分支发散，则warp串行执行所采用的每个分支路径，禁用不在该路径上的线程，并且当所有路径完成时，线程会聚回到相同的执行路径。

由于一次只有一条通用指令，我正在考虑锁步。