标签: opencl gpu amd amd-gcn
通常,一个计算单元只能运行一个工作组。但是AMD的医生说,在同一计算单元上可以运行多个波前。我怎样才能做到这一点?那是一个OpenCL函数吗?还是我需要使用汇编指令?我要这样做是因为我的工作组大小为20,并且每个计算单元要运行2个工作组,所以每个组可以使用32 KiB LDS(每个CU总共64 KiB,每个波前最多可以使用32KiB,所以我想运行两个波前以使用全部的LDS。