如果有矩阵,我只想访问矩阵的下三角部分。我试图找到一个很好的线索索引,但到目前为止我还没有管理它。有任何想法吗? 我需要并索引循环下三角矩阵,比如这是我的矩阵
1 2 3 4
5 6 7 8
9 0 1 2
3 5 6 7
索引应该用于
1
5 6
9 0 1
3 5 6 7
在这个例子中,1D阵列的位置为0,4,5,8,9,10,12,13,14,15。
CPU循环是:
for(i = 0; i < N; i++){
for(j = 0; j <= i; j++){
.......
其中N是行数。我在内核中尝试了一些东西:
__global__ void Kernel(int N) {
int row = blockIdx.x * blockDim.x + threadIdx.x;
int col = blockIdx.y * blockDim.y + threadIdx.y;
if((row < N) && (col<=row) )
printf("%d\n", row+col);
}
然后以这种方式调用它:
dim3 Blocks(1,1);
dim3 Threads(N,N);
Kernel<<< Blocks, Threads>>>(N);
但它根本不起作用。 我得到了什么:
0
1
2
2
3
4
答案 0 :(得分:7)
你正在启动一个线程网格,然后禁用对角线以上的所有线程,即大约50%的线程将不会做任何非常低效的事情。
代码的简单修复是修复索引:
__global__ void Kernel(int N)
{
int row = blockIdx.x * blockDim.x + threadIdx.x;
int col = blockIdx.y * blockDim.y + threadIdx.y;
if((row < N) && (col<=row) )
printf("%d\n", row * N + col);
}
也许更有效但更复杂的解决方案是启动正确数量的线程并转换索引。查看this answer了解起点...
答案 1 :(得分:2)
问题是我们正在索引一维数组,所以为了映射它,我们需要将行索引与列数相乘,因此遵循以下示例:
__global__ void Kernel(int N) {
int row = blockIdx.x * blockDim.x + threadIdx.x;
int col = blockIdx.y * blockDim.y + threadIdx.y;
if((row < N) && (col<=row) )
printf("%d\n", row*N + col);
}