标签: c++ cuda profiler nvcc
有没有办法以合并的方式检查我的内核读取和写入全局内存?我一直在尝试确保内核有效地读取和写入内存以获得更好的性能。
谢谢
答案 0 :(得分:4)
使用分析器,例如nvprof
gld_efficiency和gst_efficiency指标可以直接衡量合并后的全局负载和存储的百分比。例如在Linux上:
nvprof --metrics gld_efficiency,gst_efficiency ./my_app