应用错误收集

opencl分支与内存冗余

时间：2013-11-06 14:41:12

标签： parallel-processing opencl gpgpu embarrassingly-parallel

我正在处理网格中的项目，具体取决于项目的类型，需要执行不同类型的计算/功能。但我读过分支在做同样事情的工作项之间做的很糟糕。为了避免这种情况，我可以将网格分成每种类型的网格（在这种特殊情况下我只需要两个）...

在这种情况下会更好;将分支留在那里，或者为每种类型制作两个网格？我理解这取决于分支内部发生的事情（计算界限）与网格的大小（内存/延迟限制）。

对于这些类型的决策是否有一些基本规则可以遵循，或者是否达成共识哪个更好？

修改：（空间）网格不像通常的空间网格那样稀疏，而是结构的密集数组（没有空元素）（每个结构约200个字节），最多可容纳500.000个元素。

我从另一个来源填充这个数组，使用该源我在其中放置三角形或linesegments。

然后使用这个网格，我需要进行linesegment / linesegment或linesegment / triangle碰撞检测。所以问题是在这种情况下填充两个单独的数组（为了参数可以说250.000个元素x 200个字节）是否更有效，并且工作项仅对行/行或行/三角形进行批量计算..或者有500.000x200字节中的一个大字节，让每个工作项找出给定类型执行的计算。

2 个答案:

答案 0 :(得分：1)

对此没有一般规则，取决于具体情况。如果你编写很多代码显然重新安排内存更好。但是，如果你的分支只是2个指令，那么不要重塑内存。

我首先要对每种类型（CPU方面或简单内核）中的项目进行分类，并为每种类型的项目运行特定内核。但是，这可能不适合您的情况。

如果您可以发布一些代码，也许我们可以指出您正确的方向。

答案 1 :(得分：1)

这取决于新网格的结构，也取决于您的旧网格。

让我们采取最坏的情况。普通的矩形网格（如图像）如果每个奇数项都是类型1并且每个偶数都是类型2.现在基本上一半的线程将在GPU中闲置（而type1被计算为type2线程＆＃39; idle＆＃39）。这是因为工作组中的项目通常共享其程序计数器。

如果你的新网格是2个内核调用而且简单＆＃34;不是type2？返回＆＃34;然后它比第一种情况更糟糕。但是，如果您设法制作2个网格，其中每个项目的类型都是正确的，那么拆分它会好得多。

如果您的原始网格是精确的两半图像，那么它可能并不重要。只有边界内的群体才会执行额外的工作。

分支机构不是那么邪恶。只要想一想，无论何时你有一个分支甚至工作组中的一个线程（或者你的硬件中的任何调度单元）都会采用与其他分支不同的方向，两个分支中的所有代码都将被带到任何地方。

这也是为什么如果某些特殊条件适用而不执行昂贵计算的优化在GPU上通常不起作用的原因，因为如果其他线程没有满足条件，您仍将有效地计算它每个帖子。