parallel-processing - 如何解读NVIDIA Visual Profiler分析/建议？

我对CUDA相对较新，目前正在开展一项项目，以加速使用gpu附加的嵌入式系统中的计算机视觉应用程序（NVIDIA TX1）。我想要做的是在两个库之间进行选择：OpenCV和VisionWorks（包括OpenVX）。

目前，我已经制作了运行Canny Edge Detection算法的测试代码，两个库显示了不同的执行时间（VisionWorks实现时间缩短了约30~40％）。

所以，我想知道原因可能是什么，从而分析了占用时间最多的内核：＆can; :: canny :: edgesHysteresisLocalKernel＆＃39;来自OpenCV4Tegra，占整个应用程序的37.2％（来自OpenCV实现和VisionWorks实现）和＆＃39; edgesHysteresisLocal＆＃39;来自VisionWorks。

我遵循了指导分析＆＃39;并且分析器建议应用程序都是延迟限制的，并且下面是“edgeHysteresisLocal”和“＃39; edgesHysteresisLocal”的捕获。来自VisionWorks，以及＆can; :: edgeHysteresisLocalKernel＆＃39;来自OpenCV4Tegra。

OpenCV4Tegra - canny::edgesHysteresisLocalKernel

VisionWorks - edgesHysteresisLocal

所以，我的问题是，

从分析中，我能说出不同表现的原因？
此外，在总体分析CUDA应用程序时，从哪里开始？我的意思是，有很多指标，很难说出要看什么。
是否有一些关于CUDA应用程序概要分析的教育资料？（我查看了NVIDIA的许多幻灯片，我认为他们只是告诉指标的定义，而不是一般从哪里开始。）

- 顺便说一下，据我所知，NVIDIA并没有提供VisionWorks和OpenCV4Tegra的源代码。如果我错了，请纠正我。

提前感谢您的回答。

如何解读NVIDIA Visual Profiler分析/建议？

1 个答案: