cuda - 如何解释CUDA中的指令重放

这个答案适用于Compute Capability 2.0 - 3.7（Fermi - Kepler）设备。

每个循环，每个SM warp调度程序选择一个warp并发出1-2个独立指令。

事件 inst_executed 是完成的扭曲指令的计数。 thread_inst_executed 是完成指令的线程计数。

如果SM由于

而无法完成发出的指令

然后SM调度程序必须多次发出指令。这称为指令重放。值inst_issued == inst_issued2 * 2 + inst_issued1 是已完成的指令数+指令重放。

指令重放使用指令发布槽来降低SM的计算吞吐量。

下面列出的 _replay_overhead 指标可以帮助您确定导致重播的操作类型。 _replay 事件可以提供量级。

NVPROF / CUPTI活动和指标

EVENT GROUP 1 - 通用指令发布和退休计数

EVENT GROUP 2 - 计算或重播上面列出的特定类型的事件（并非所有事件都有计数）

shared_load_replay：由于共享加载库冲突（当两个或多个共享内存加载请求的地址落在同一个内存库中时）或者没有冲突但由所有三个访问的单词总数而导致的重放执行该指令的warp中的广告超过了一个周期内可加载的字数（256字节）。
shared_store_replay：由于共享存储库冲突导致的重放（当两个或多个共享内存存储请求的地址落在同一个内存库中时）或者没有冲突但是所有访问的字总数时读取warp执行该指令超过了可以在一个周期内存储的单词数。
global_ld_mem_divergence_replays：全局内存加载的指令重放次数。如果指令正在访问多个128字节的高速缓存行，则重放指令。对于每个额外的高速缓存行访问，计数器增加1。
global_st_mem_divergence_replays：全局内存存储的指令重放次数。如果指令正在访问多个128字节的高速缓存行，则重放指令。对于每个额外的高速缓存行访问，计数器增加1。

METRIC GROUP - 效率计算。

计算能力5.x 设备（Maxwell）设备将重放从warp调度程序推送到各个单元。这减少了重放延迟并释放了调度程序以发出数学运算。在这些设备上，inst_issued / inst_executed = inst_replay_overhead的比率通常接近于0.