CUDA中clock()
和clock64()
的时钟衡量标准是什么?
根据CUDA documentation,时钟是每多处理器计数器'。根据我的理解,这指的是主GPU时钟(不是着色器时钟)。
但是当我使用主GPU时钟频率测量时钟计数并将其转换为时间值时,我得到的结果是实际值的两倍大(我使用cuda事件使用主机代码的内核执行时间测量实际值)。这表明clock()
返回着色器时钟频率而不是主GPU时钟。
如何解决这种混乱?
编辑: 我通过将从cudaGetDeviceProperties得到的时钟速率除以2来计算主GPU时钟频率。据我所知,cudaGetDeviceProperties给出的值是着色器时钟频率。
答案 0 :(得分:4)
CUDA documentation表示clock()
和clock64()
返回'per-multiprocessor counter'是正确的。但在Fermi架构中,clock()
和clock64()
实际返回的是着色器时钟计数器。
cudaGetDeviceProperties返回的clockRate
是着色器时钟频率。
因此,要计算时间,我们必须将时钟计数从clock()
或clock64()
除以您从cudaGetDeviceProperties获得的着色器时钟频率。