标签: parallel-processing gpu metal
我正在尝试使用金属来实现硬件加速的图像过滤器(对感兴趣的人进行缝雕刻)。第一步涉及一行一行地运行代码,每一行的计算取决于上一行的计算。但是,每行的计算可以按像素并行化。
一种方法是为每行调度一次内核,但是我相信有更好的方法来执行此操作,因为这会导致大量开销。
是否可以通过某种方式告诉Metal线程组的执行顺序?