标签: kernel opencl gpu performancecounter
我有一段代码可以启动数以千计的内核,我正在制作一个运行时性能模型,可以根据问题和机器规格解释运行时。 我需要知道的是,我如何将内核开销,主机和设备性能规范(带宽,......),哪些参数影响内核开销以及导致内核开销的问题联系起来。我正在使用OpenCL