标签: cuda data-transfer date-arithmetic
我计划将cuda内核写入机器学习算法,但我尝试比较从设备代码获得的效率和从主机到设备的数据传输的时间损失。是否有任何工具可以帮助我,或者通过这种比较来确定cuda实现是否值得代码的准确方法是什么?
答案 0 :(得分:1)
使用CUDA探查器。它绘制了很好的图表,代表了你的程序及时做了什么。这将向您显示传输时间和内核运行时。通常,如果您的算法与数据大小相比进行大量计算,您将看到显着的提升。