我使用两个显卡进行opencl代码
使用分析,我的GTX 630 kepler为每个方法请求运行速度比GTX650 Ti快。
分析后,我发现两个显卡有些不同。但我无法理解GTX650 Ti的占用率,l1_global_load_hit,l1_global_load_miss,active_warps和active_cycles 更少。任何人都可以帮助我以更好的方式理解这些术语。
答案 0 :(得分:0)
将本地工作组大小从1024减少到512或256甚至64,然后再试一次。这将为每波线程留下更多本地内存。因此,更多将同时执行以占用更多的ALU。
不要忘记让线程总数为768的倍数(更快的卡的核心数)实际上将其均匀地填充到所有核心中。(不仅仅是384的倍数,如1k-是不适合你的快卡)