Compute Visual Profiler中的CUDA memset

时间:2012-03-10 17:24:36

标签: cuda

我使用Compute Visual Profiler来衡量我的CUDA程序的性能。

分析器的结果显示了cudaMemset函数的2个不同结果。

  1. memset32_post
  2. memset128
  3. 我想知道这两个有什么区别?

    Screenshot

1 个答案:

答案 0 :(得分:1)

我猜想memset128内核可以完成大部分工作,而memset32_post内核可以清理余数,因为你使用的是不是128的倍数的大小。

没有什么可担心的,它只是尝试以尽可能最有效的方式实现memset,尽管我试图避免内部循环(在任何处理器上)的memset。如果你真的担心这个,你可能会过度分配。