我使用Compute Visual Profiler来衡量我的CUDA程序的性能。
分析器的结果显示了cudaMemset函数的2个不同结果。
我想知道这两个有什么区别?
答案 0 :(得分:1)
我猜想memset128内核可以完成大部分工作,而memset32_post内核可以清理余数,因为你使用的是不是128的倍数的大小。
没有什么可担心的,它只是尝试以尽可能最有效的方式实现memset,尽管我试图避免内部循环(在任何处理器上)的memset。如果你真的担心这个,你可能会过度分配。