标签: c++ cuda profiling gpu
我搜索了一下但是我找到的所有东西都只能在CPU代码中注释,我怎样才能在1个threadblock的2 _syncthread()之间测量内核内的部分时间?可能吗?
答案 0 :(得分:1)
一种方法是使用in the programming guide所述的clock()或clock64函数。
clock()
clock64
在clock64上搜索cuda标签,了解其使用的其他示例。