我开始尝试使用C ++ AMP。我创建了一个简单的测试应用程序只是为了看看它能做什么,但结果对我来说非常令人惊讶。请考虑以下代码:
#include <amp.h>
#include "Timer.h"
using namespace concurrency;
int main( int argc, char* argv[] )
{
uint32_t u32Threads = 16;
uint32_t u32DataRank = u32Threads * 256;
uint32_t u32DataSize = (u32DataRank * u32DataRank) / u32Threads;
uint32_t* pu32Data = new (std::nothrow) uint32_t[ u32DataRank * u32DataRank ];
for ( uint32_t i = 0; i < u32DataRank * u32DataRank; i++ )
{
pu32Data[i] = 1;
}
uint32_t* pu32Sum = new (std::nothrow) uint32_t[ u32Threads ];
Timer tmr;
tmr.Start();
array< uint32_t, 1 > source( u32DataRank * u32DataRank, pu32Data );
array_view< uint32_t, 1 > sum( u32Threads, pu32Sum );
printf( "Array<> deep copy time: %.6f\n", tmr.Stop() );
tmr.Start();
parallel_for_each(
sum.extent,
[=, &source](index<1> idx) restrict(amp)
{
uint32_t u32Sum = 0;
uint32_t u32Start = idx[0] * u32DataSize;
uint32_t u32End = (idx[0] * u32DataSize) + u32DataSize;
for ( uint32_t i = u32Start; i < u32End; i++ )
{
u32Sum += source[i];
}
sum[idx] = u32Sum;
}
);
double dDuration = tmr.Stop();
printf( "gpu computation time: %.6f\n", dDuration );
tmr.Start();
sum.synchronize();
dDuration = tmr.Stop();
printf( "synchronize time: %.6f\n", dDuration );
printf( "first and second row sum = %u, %u\n", pu32Sum[0], pu32Sum[1] );
tmr.Start();
for ( uint32_t idx = 0; idx < u32Threads; idx++ )
{
uint32_t u32Sum = 0;
for ( uint32_t i = 0; i < u32DataSize; i++ )
{
u32Sum += pu32Data[(idx * u32DataSize) + i];
}
pu32Sum[idx] = u32Sum;
}
dDuration = tmr.Stop();
printf( "cpu computation time: %.6f\n", dDuration );
printf( "first and second row sum = %u, %u\n", pu32Sum[0], pu32Sum[1] );
delete [] pu32Sum;
delete [] pu32Data;
return 0;
}
请注意,Timer
是使用QueryPerformanceCounter的简单计时类。无论如何,代码的输出如下:
Array<> deep copy time: 0.089784
gpu computation time: 0.000449
synchronize time: 8.671081
first and second row sum = 1048576, 1048576
cpu computation time: 0.006647
first and second row sum = 1048576, 1048576
为什么同步()的调用花了这么长时间?有办法解决这个问题吗?除此之外,计算性能的表现令人惊讶,但是synchronize()开销使我无法使用它。
我也可能做错了,如果有的话,请告诉我。提前谢谢。
答案 0 :(得分:5)
函数synchronize()可能需要很长时间,因为它正在等待实际内核完成其工作。
来自parallel_for_each from amp.h:
请注意,parallel_for_each的执行方式与调用代码同步,但实际上它是异步的。即一旦进行了parallel_for_each调用并且内核已经传递给运行时,[parallel_for_each之后的代码]继续由CPU线程立即执行,而并行内核由GPU线程执行。
因此,测量parallel_for_each所花费的时间并不是特别有意义。
编辑:编写算法的方式,GPU加速不会带来太大好处。源[i]的读取是非合并的,因此它比合并读取慢近16倍。可以通过使用共享内存来合并读取,但这并不是一件容易的事。我建议你阅读GPU编程。如果您只想要一个演示C ++ AMP实用程序的简单示例,请尝试matrix multiplication。
当然,您将观察到的性能也很大程度上取决于GPU硬件的型号。
答案 1 :(得分:3)
除了Igor对您的特定算法的响应之外,请注意,一般来说,测量C ++ AMP性能的方式有多个不正确的方面(没有运行时初始化排除,没有丢弃初始JIT,没有数据预热,以及已经指出的p_f_e同步的假设,所以请遵循我们的指导原则: