在计划中计算FLOPS / GFLOPS - CUDA

时间:2010-05-08 19:30:08

标签: cuda nvidia flops

已经完成了我的应用程序,它将CRS矩阵和向量(SpMV)相乘,现在唯一要做的就是计算我的应用程序所做的FLOPS。在我看来,在稀疏矩阵 - 向量乘法的情况下,很难估计浮点运算的数量,因为一行中的乘法数真的是“跳跃”或流畅。

我只是尝试使用“cudaprof”(在./CUDA/bin目录中提供)来测量时间 - 它运行正常。

任何sugestions和指令贴都赞赏!

1 个答案:

答案 0 :(得分:2)

这不仅仅是你的意见;很简单的事实是,稀疏矩阵的操作数量是数据相关的,因此如果不了解数据,就无法得到合理的答案。这使得无法进行一个数字拟合的数据估计。

这可能是一种情况,你可以在很长时间内仔细思考(并进行大量的研究)以做出可能准确的估计,或者你可以花几分钟时间编写现有的变体每次执行操作时递增计数器的实现。当然,这需要花费很长时间才能运行(特别是如果你没有以启用CUDA的形式进行),但可能要比思考时间少得多,并且当答案出来时,你不需要做很多工作来说服自己这是正确的。