应用错误收集

在处理具有1,000,000个元素的向量时，我尝试每10,000次迭代打印全局ID，以通过将这些行添加到内核来监视开发进度：

"#pragma OPENCL EXTENSION cl_amd_printf : enable                                \n" \

和

"    if(id % 10000 == 0){                                                       \n" \
"        printf(\"%d\\r\\n\", id);                                              \n" \
"    }                                                                          \n" \

这导致正常的3.0-3.3秒执行膨胀到38-40秒。由于我在AMD OpenCL 3.0 SDK的A.8.10部分中找不到任何性能，因此不能立即清楚这种行为是否正常。

这种表现是否正常和预期，或者我做错了什么？

在OpenCL内核中使用printf（）

0 个答案: