如何确定CUDA内核的Gflop / s性能?

时间:2014-07-24 17:05:34

标签: cuda profiling

更新:在一个稍微出乎意料的事件发生时,这个标记为重复的问题在我发布之后获得了满足我要求的优秀答案:How to calculate Gflops of a kernel。总而言之,如果您正确地询问它们,Nsight for Visual Studio和nvvp都可以报告FLOPS。

我将原始问题留给后人,但现在已经多余了。


有一些问题(我已经读过)关于如何描述一个CUDA程序,但我还没有找到任何关于此的确定性。我有一段CUDA代码,并在不同的优化级别上写了它的性能。我已经要求我提供绝对的GFLOP / s数字,我不完全确定这是可能的,如果是这样的话,怎么做。

相关属性

  • GPU是GTX 780Ti(计算3.5)
  • GPU连接到运行CentOS 6.3的计算机(这是不可协商的)
  • CUDA工具包版本6.0:nvprofnvvpnsight可用
  • 算法依赖于数据 - 运行长度在技术上是不确定的
  • 跑步时间足够长,不确定性平均值

是否存在一种方法可以在这个软件中分析内核的实际浮点运算数,或者我是否告诉审阅者在这种情况下不可能这样做?

0 个答案:

没有答案