应用错误收集

OpenCL和CUDA已经包含了几年的原子操作（尽管显然不是每个CUDA或OpenCL设备都支持这些）。但是 - 我的问题是关于＆＃34;和＃34;生活在一起的可能性。由非原子写入引起的比赛。

假设网格中的多个线程都写入全局内存中的相同位置。我们是否保证，当内核执行结束时，其中一个写入的结果将出现在该位置，而不是一些垃圾？

此问题的相关参数（选择任何组合，编辑，但已获得答案的nVIDIA + CUDA除外）：

内存空间：仅限全局内存 ;这个问题与本地/共享/私人记忆无关。
对齐：在单个存储器写入宽度内（例如，nVIDIA GPU上的128位）
GPU制造商：AMD / nVIDIA
编程框架：CUDA / OpenCL
存储指令在代码中的位置：所有线程/不同代码行的相同代码行。
写入目标：固定地址/固定偏移量与功能参数/完全动态
写入宽度：8/32/64位。

我们是否保证，当内核执行结束时，其中一个写入的结果将出现在该位置，而不是某些垃圾？

对于CUDA GPU，我非常确定使用OpenCL的NVIDIA GPU，答案是肯定的。我下面的大多数术语都会有CUDA。如果您需要CUDA和OpenCL的详尽答案，请告诉我，我将删除此答案。无论如何，Very similar questions to this one已经被问到并回答了。 Here's another，我确定还有其他人。

当多个＆＃34;同时＆＃34;写入发生在同一位置，其中一个将赢得完整。

哪一个将获胜是未定义的。非获胜写入的行为也是未定义的（它们可能会发生，但可能会被胜利者取代，或者根本不会发生。）内存位置的实际内容可能会通过各种值（例如原始值），加上任何有效的书面价值），但过境不会通过＆＃34;垃圾＆＃34;价值（即尚未存在且未被任何线程写入的价值。）过境终止于＆＃34;赢家＆＃34;，最终。

示例1：

位置X包含零。线程1,5,32,30000和450000都写入该位置。如果该位置没有其他写入流量，则该位置最终将包含值1（在内核终止时或更早）。

示例2：

位置X包含5.线程32将1写入X.线程90303将7写入X.线程432322将972写入X.如果没有其他写入流量到达该位置，则在内核终止时或更早时，位置X将包含1,7或972.它不包含任何其他值，包括5。

我假设X在全局内存中，并且所有流量都与它自然对齐，并且它的所有流量都具有相同的大小，尽管这些原则也适用于共享内存。我还假设您没有违反CUDA编程原则，例如naturally aligned traffic对设备内存位置的要求。我在这里看到的事务是源自单个SASS指令的事务（每个线程）这样的事务可以具有1,2,4,8或16个字节的宽度。我在这里提出的权利要求适用于写入是否源自＆＃34;同一行代码＆＃34;或者＆＃34;不同的行＆＃34;。

这是一个相当复杂的主题（特别是当我们考虑缓存行为时，以及当我们在混合中抛出读取时会发生什么），但是＆＃34; junk＆＃34;值永远不会发生。在全局内存中应该出现的唯一值是那些开始的值，或某些线程在某处写入的值。

对GPU上的非原子写入的弱保证？

1 个答案: