标签: cuda kepler gpu-warp
我最近阅读了GK110 white paper,声称每个SM都有4个warp调度程序,每个调度程序都有双指令调度单元。在每个循环中,每个warp调度程序选择一个符合条件的warp来执行它的指令。
我的问题是在GK110中,每个SM包含192个CUDA内核(SP),但SM在每个周期只能调度4个warp,即4 x 32 = 128个内核将被使用(假设所有线程只需要单精度单位),那么其他64个核心会做什么?