标签: histogram
我是一名学生并致力于图像处理项目 我正在测试一些cuda代码表演。
我测试了可用的直方图计算 Nvidia样品(我的电脑是GeFROCE 720M),但我是 表现很糟糕。 在书中" CUDA by example"它说的是表演 使用原子操作时很差,但可以 通过使用共享内存(使代码成为可能)来改进 比CPU快)。
但是,当我查看示例代码时,共享内存正在被使用 而且我不明白为什么我仍然表现不佳(慢一点 比CPU)。
我肯定会出错,而且我想知道可以做些什么 改善表现。