我正在尝试在Kepler设备上重叠内核执行,但是从NVVP布局看,它们似乎没有重叠。这是代码,
#include<stdio.h>
#include<sys/time.h>
#include<time.h>
#define NY 1024
#define NX 1024
__global__ void kernel1(int j,int *A,int *b)
{
int i = blockIdx.x * blockDim.x + threadIdx.x;
b[j*NY+i] = A[i*NY+j];
}
__global__ void kernel2(int j,int *A,int *b)
{
int i = blockIdx.x * blockDim.x + threadIdx.x;
for(int time=0;time<100;time++)
b[j*NY+i] += 10;
}
int main()
{
int nstreams=4;
int *a, *b;
struct timeval t1,t2;
cudaMalloc((void**)&a,NX*NY*sizeof(int));
cudaMalloc((void**)&b,NX*NY*sizeof(int));
cudaStream_t *streams = (cudaStream_t *) malloc(nstreams * sizeof(cudaStream_t));
for (int i = 0; i < nstreams; i++)
{
cudaStreamCreate(&(streams[i]));
}
gettimeofday(&t1, NULL);
for(int newvar=0;newvar<NX;newvar++)
{
kernel1<<<1,NY,0,streams[newvar%nstreams]>>>(newvar,a,b);
}
for(int newvar=0;newvar<NX;newvar++)
{
kernel2<<<1,NY,0,streams[newvar%nstreams]>>>(newvar,a,b);
}
cudaDeviceSynchronize();
gettimeofday(&t2, NULL);
return 0;
}
请提出一些建议。 CUDA 5.5版 NVVP 5.5版Linux机器Ubuntu 12.10
答案 0 :(得分:1)
从根本上说,我认为问题是你的内核执行的时间不够长。内核的执行时间是几微秒,内核启动开销也只有几微秒,所以你没有看到任何重叠。当API完成新内核启动的设置时,之前的内核已经完成。
我修改了您的kernel1
,如下所示:
__global__ void kernel1(int j,int *A,int *b)
{
int i = blockIdx.x * blockDim.x + threadIdx.x;
for (int q = 0; q < 1000; q++)
b[j*NY+i] = A[i*NY+j] + q/j;
}
这些修改没有什么神奇或特殊的,我只是在寻找一种方法来增加内核持续时间(从几微秒到几毫秒)。
通过上述更改,我在分析器中看到了kernel1
的良好重叠。
我想你的kernel2
可以做类似的事情。
在nvvp
中启动分析会话时,还应确保未取消选中“启用并发内核分析”复选框。