在单元测试期间,如何配置随JCuda启动的内核?

时间:2019-06-26 09:51:19

标签: scala unit-testing cuda profiling jcuda

我编写了一个scala程序,该程序使用JCuda接口启动Cuda内核。这些内核花费的时间比我想完成的时间长,因此我想对它们进行概要分析,以找出导致速度下降的原因。我正在使用GeForce RTX 2060,并且PC运行Ubuntu 19.04。我可以使用哪种工具来准确地识别代码的哪些部分花费最多的时间?

我研究过使用nvvm和nvprof分析器,但据我所知,这两个都需要从命令行或可执行文件中启动cuda应用程序,而这些内核是从我所在单元中的Scala代码中启动的测试。我已经有了内核运行时的外部时间,但是没有单独的故障。

0 个答案:

没有答案