在处理具有1,000,000个元素的向量时,我尝试每10,000次迭代打印全局ID,以通过将这些行添加到内核来监视开发进度:
"#pragma OPENCL EXTENSION cl_amd_printf : enable \n" \
和
" if(id % 10000 == 0){ \n" \
" printf(\"%d\\r\\n\", id); \n" \
" } \n" \
这导致正常的3.0-3.3秒执行膨胀到38-40秒。 由于我在AMD OpenCL 3.0 SDK的A.8.10部分中找不到任何性能,因此不能立即清楚这种行为是否正常。
这种表现是否正常和预期,或者我做错了什么?