如何在cuda中并行化dct(for循环)

时间:2016-06-11 02:48:11

标签: parallel-processing cuda dct

如何在cuda中并行化四个嵌套for循环 在dct的情况下我有四个嵌套的for循环我希望我的dct函数在cuda代码

for(y = 0; y < HEIGHT; y+=BLOCK_H) {
for(x = 0; x < WIDTH; x+= BLOCK_W) {
for(i = 0; i < BLOCK_H; i++) {
for(j = 0; j < BLOCK_W; j++) {
block_in[i][j] = cur_frame[(x+j)+(WIDTH*(y+i))];
}
}
}
}

1 个答案:

答案 0 :(得分:2)

来自Nvidia,Obukov和Kharlamov的白皮书:Discrete Cosine Transform for 8x8 Blocks with CUDACUDA samples中的dct8x8一致。你应该看看两者。