我试图比较CPU和GPU的性能。我有
我可以确认GPU已配置好并且可以正常使用CUDA。
我正在实施Julia集计算。 http://en.wikipedia.org/wiki/Julia_set 基本上对于每个像素,如果坐标在集合中,则将其绘制为红色 否则把它漆成白色。
尽管如此,我对CPU和GPU都给出了相同的答案,而不是得到一个 性能提升,使用GPU可以降低性能。
运行时间
我知道将数据从设备传输到主机可能需要一些时间。 但是,我怎么知道GPU的使用是否真的有益呢?
这是相关的GPU代码
#include <stdio.h>
#include <cuda.h>
__device__ bool isJulia( float x, float y, float maxX_2, float maxY_2 )
{
float z_r = 0.8 * (float) (maxX_2 - x) / maxX_2;
float z_i = 0.8 * (float) (maxY_2 - y) / maxY_2;
float c_r = -0.8;
float c_i = 0.156;
for( int i=1 ; i<100 ; i++ )
{
float tmp_r = z_r*z_r - z_i*z_i + c_r;
float tmp_i = 2*z_r*z_i + c_i;
z_r = tmp_r;
z_i = tmp_i;
if( sqrt( z_r*z_r + z_i*z_i ) > 1000 )
return false;
}
return true;
}
__global__ void kernel( unsigned char * im, int dimx, int dimy )
{
//int tid = blockIdx.y*gridDim.x + blockIdx.x;
int tid = blockIdx.x*blockDim.x + threadIdx.x;
tid *= 3;
if( isJulia((float)blockIdx.x, (float)threadIdx.x, (float)dimx/2, (float)dimy/2)==true )
{
im[tid] = 255;
im[tid+1] = 0;
im[tid+2] = 0;
}
else
{
im[tid] = 255;
im[tid+1] = 255;
im[tid+2] = 255;
}
}
int main()
{
int dimx=768, dimy=768;
//on cpu
unsigned char * im = (unsigned char*) malloc( 3*dimx*dimy );
//on GPU
unsigned char * im_dev;
//allocate mem on GPU
cudaMalloc( (void**)&im_dev, 3*dimx*dimy );
//launch kernel.
**for( int z=0 ; z<10000 ; z++ ) // loop for multiple times computation**
{
kernel<<<dimx,dimy>>>(im_dev, dimx, dimy);
}
cudaMemcpy( im, im_dev, 3*dimx*dimy, cudaMemcpyDeviceToHost );
writePPMImage( im, dimx, dimy, 3, "out_gpu.ppm" ); //assume this writes a ppm file
free( im );
cudaFree( im_dev );
}
这是CPU代码
bool isJulia( float x, float y, float maxX_2, float maxY_2 )
{
float z_r = 0.8 * (float) (maxX_2 - x) / maxX_2;
float z_i = 0.8 * (float) (maxY_2 - y) / maxY_2;
float c_r = -0.8;
float c_i = 0.156;
for( int i=1 ; i<100 ; i++ )
{
float tmp_r = z_r*z_r - z_i*z_i + c_r;
float tmp_i = 2*z_r*z_i + c_i;
z_r = tmp_r;
z_i = tmp_i;
if( sqrt( z_r*z_r + z_i*z_i ) > 1000 )
return false;
}
return true;
}
#include <stdlib.h>
#include <stdio.h>
int main(void)
{
const int dimx = 768, dimy = 768;
int i, j;
unsigned char * data = new unsigned char[dimx*dimy*3];
**for( int z=0 ; z<10000 ; z++ ) // loop for multiple times computation**
{
for (j = 0; j < dimy; ++j)
{
for (i = 0; i < dimx; ++i)
{
if( isJulia(i,j,dimx/2,dimy/2) == true )
{
data[3*j*dimx + 3*i + 0] = (unsigned char)255; /* red */
data[3*j*dimx + 3*i + 1] = (unsigned char)0; /* green */
data[3*j*dimx + 3*i + 2] = (unsigned char)0; /* blue */
}
else
{
data[3*j*dimx + 3*i + 0] = (unsigned char)255; /* red */
data[3*j*dimx + 3*i + 1] = (unsigned char)255; /* green */
data[3*j*dimx + 3*i + 2] = (unsigned char)255; /* blue */
}
}
}
}
writePPMImage( data, dimx, dimy, 3, "out_cpu.ppm" ); //assume this writes a ppm file
delete [] data
return 0;
}
此外,根据@hyde的建议,我已经循环了仅计算部分以生成10,000个图像。我不打算写所有这些图像。计算只是我正在做的事情。
以下是运行时间
答案 0 :(得分:3)
将评论转为答案:
要获得相关数据,您需要计算多个图像,因此执行时间至少为几秒或几十秒。此外,在结果中包括文件保存时间将增加噪声并隐藏实际的CPU与GPU差异。
获得实际结果的另一种方法是选择一个具有属于该集合的批量点的Julia集合,然后将迭代计数提高到如此之高,只需要几秒钟来计算一个图像。然后只有一个单一的计算设置,因此这可能是GPU / CUDA最有利的场景。
要测量有多少开销,请将图像大小更改为1x1并将迭代限制为1,然后计算足够的图像,至少需要几秒钟。在这种情况下,GPU可能会明显变慢。
要获得最相关的用例时序,请选择您真正要使用的图像大小和迭代次数,然后测量图像数,两个版本的速度相同。这将为您提供一个粗略的经验法则来决定您何时应该使用它。
实际结果的替代方法,如果您只想获得一个图像:找到单个最坏情况图像的迭代限制,其中CPU和GPU同样快。如果多次或多次迭代将是有利的,请选择GPU,否则选择CPU。