使用READ和WRITE构造纹理内存

时间:2012-09-20 09:03:08

标签: cuda

我正在开发一个CUDA应用程序,其中内核必须多次进入全局内存。所有CTA随机访问此内存(没有位置,因此不能使用共享内存)。我需要优化它。我听说纹理内存可以缓解这个问题,但内核可以读写纹理内存吗? 1D纹理记忆? 2D纹理记忆?还有CUDA阵列呢?

5 个答案:

答案 0 :(得分:10)

CUDA纹理是只读的。纹理读取被缓存。因此,性能提升具有概率性。

CUDA Toolkit 3.1以后也有可写纹理称为Surfaces,但它们仅适用于Compute Capability> = 2.0的设备。曲面就像纹理,但优点是它们也可以由内核编写。

曲面只能绑定到使用标记cudaArray创建的cudaArraySurfaceLoadStore

答案 1 :(得分:3)

这是sgarizvi回答的后续行动。

如今,具有计算能力>=2.0的卡比2012更常见,即在提出此问题时。

下面是关于如何使用 CUDA表面记忆写入纹理的最小示例。

#include <stdio.h>

#include "TimingGPU.cuh"
#include "Utilities.cuh"

surface<void, cudaSurfaceType1D> surfD;

/*******************/
/* KERNEL FUNCTION */
/*******************/
__global__ void SurfaceMemoryWrite(const int N) {

    int tid = blockIdx.x * blockDim.x + threadIdx.x;

    surf1Dwrite((float)tid, surfD, tid * sizeof(float), cudaBoundaryModeTrap);
}

/********/
/* MAIN */
/********/
int main() {

    const int N = 10;

    cudaChannelFormatDesc channelDesc = cudaCreateChannelDesc<float>();
    //Alternatively
    //cudaChannelFormatDesc channelDesc = cudaCreateChannelDesc(32, 0, 0, 0, cudaChannelFormatKindFloat);

    cudaArray *d_arr;   gpuErrchk(cudaMallocArray(&d_arr, &channelDesc, N, 1, cudaArraySurfaceLoadStore));
    gpuErrchk(cudaBindSurfaceToArray(surfD, d_arr));

    SurfaceMemoryWrite<<<1, N>>>(N);

    float *h_arr = new float[N];
    gpuErrchk(cudaMemcpyFromArray(h_arr, d_arr, 0, 0, N * sizeof(float), cudaMemcpyDeviceToHost));

    for (int i=0; i<N; i++) printf("h_arr[%i] = %f\n", i, h_arr[i]);

    return 0;
}

答案 2 :(得分:1)

我建议将你的记忆声明为线性记忆,然后用纹理绑定。我还没有尝试过新的无绑定纹理。有人试过吗?

提到的纹理mem是通过缓存只读的。将其视为只读内存。 因此,重要的是要注意在内核本身内,您不会写入绑定到纹理的内存,因为它可能无法更新到纹理缓存。

答案 3 :(得分:1)

这是Farzad回答的后续行动。

Farzad的观点在CUDA C编程指南中突出显示:

  

缓存纹理和表面内存(请参阅设备内存访问)   并且在同一个内核调用中,缓存与之保持一致   尊重全局内存写入和表面内存写入,所以任何   纹理提取或表面读取到已写入的地址   通过全局写或表面写在同一内核中调用返回   未定义的数据。换句话说,线程可以安全地读取一些纹理   或仅在此内存位置已存在时才显示内存位置   由先前的内核调用或内存副本更新,但如果有,则更新   以前是由同一个线程或另一个线程更新的   相同的内核调用。

这意味着可以修改纹理绑定的全局内存位置,但这不能在运行纹理提取的同一内核中发生。另一方面,由于在内核启动时清除纹理缓存,因此可以跨内核在上述意义上“写入纹理”,请参阅cuda kernel for add(a,b,c) using texture objects for a & b - works correctly for 'increment operation' add(a,b,a)?

下面,我将提供一个示例,其中修改了纹理绑定的全局内存位置。在这个例子中,我用以下方式调用CUDA内核

median_filter_periodic_boundary<<<iDivUp(N, BLOCKSIZE), BLOCKSIZE>>>(d_out, N);
...
square<<<iDivUp(N, BLOCKSIZE), BLOCKSIZE>>>(d_vec, pitch, N);
...
median_filter_periodic_boundary<<<iDivUp(N, BLOCKSIZE), BLOCKSIZE>>>(d_out, N);

median_filter_periodic_boundary内核中,操作纹理提取,而在square内核中,纹理绑定的全局内存位置被修改。

以下是代码:

#include <stdio.h>

#include "TimingGPU.cuh"
#include "Utilities.cuh"

texture<float, 1, cudaReadModeElementType> signal_texture;

#define BLOCKSIZE 32

/*************************************************/
/* KERNEL FUNCTION FOR MEDIAN FILTER CALCULATION */
/*************************************************/
__global__ void median_filter_periodic_boundary(float * __restrict__ d_out, const unsigned int N){

    int tid = threadIdx.x + blockIdx.x * blockDim.x;

    if (tid < N) {

        float signal_center = tex1D(signal_texture, (float)(tid + 0.5 - 0) / (float)N);
        float signal_before = tex1D(signal_texture, (float)(tid + 0.5 - 1) / (float)N);
        float signal_after  = tex1D(signal_texture, (float)(tid + 0.5 + 1) / (float)N);

        d_out[tid] = (signal_center + signal_before + signal_after) / 3.f;

    }
}

/*************************************************/
/* KERNEL FUNCTION FOR MEDIAN FILTER CALCULATION */
/*************************************************/
__global__ void square(float * __restrict__ d_vec, const size_t pitch, const unsigned int N){

    unsigned int tid = threadIdx.x + blockIdx.x * blockDim.x;

    if (tid < N) d_vec[tid] = 2.f * tid;

}

/********/
/* MAIN */
/********/
int main() {

    const int N = 10;                                                                                

    // --- Input/output host array declaration and initialization
    float *h_vec = (float *)malloc(N * sizeof(float));
    for (int i = 0; i < N; i++) h_vec[i] = (float)i;

    // --- Input/output host and device array vectors
    size_t pitch;
    float *d_vec;   gpuErrchk(cudaMallocPitch(&d_vec, &pitch, N * sizeof(float), 1));
    printf("pitch = %i\n", pitch);
    float *d_out;   gpuErrchk(cudaMalloc(&d_out, N * sizeof(float)));
    gpuErrchk(cudaMemcpy(d_vec, h_vec, N * sizeof(float), cudaMemcpyHostToDevice));

    // --- CUDA texture memory binding and properties definition
    cudaChannelFormatDesc channelDesc = cudaCreateChannelDesc<float>();
    //Alternatively
    //cudaChannelFormatDesc channelDesc = cudaCreateChannelDesc(32, 0, 0, 0, cudaChannelFormatKindFloat);
    size_t texture_offset = 0;
    gpuErrchk(cudaBindTexture2D(&texture_offset, signal_texture, d_vec, channelDesc, N, 1, pitch)); 
    signal_texture.normalized = true; 
    signal_texture.addressMode[0] = cudaAddressModeWrap;

    // --- Median filter kernel execution
    median_filter_periodic_boundary<<<iDivUp(N, BLOCKSIZE), BLOCKSIZE>>>(d_out, N);
    gpuErrchk(cudaPeekAtLastError());
    gpuErrchk(cudaDeviceSynchronize());

    gpuErrchk(cudaMemcpy(h_vec, d_out, N * sizeof(float), cudaMemcpyDeviceToHost));
    printf("\n\nFirst filtering\n");
    for (int i=0; i<N; i++) printf("h_vec[%i] = %f\n", i, h_vec[i]);

    // --- Square kernel execution
    square<<<iDivUp(N, BLOCKSIZE), BLOCKSIZE>>>(d_vec, pitch, N);
    gpuErrchk(cudaPeekAtLastError());
    gpuErrchk(cudaDeviceSynchronize());

    gpuErrchk(cudaMemcpy(h_vec, d_vec, N * sizeof(float), cudaMemcpyDeviceToHost));
    printf("\n\nSquaring\n");
    for (int i=0; i<N; i++) printf("h_vec[%i] = %f\n", i, h_vec[i]);

    // --- Median filter kernel execution
    median_filter_periodic_boundary<<<iDivUp(N, BLOCKSIZE), BLOCKSIZE>>>(d_out, N);
    gpuErrchk(cudaPeekAtLastError());
    gpuErrchk(cudaDeviceSynchronize());

    printf("\n\nSecond filtering\n");
    gpuErrchk(cudaMemcpy(h_vec, d_out, N * sizeof(float), cudaMemcpyDeviceToHost));
    for (int i=0; i<N; i++) printf("h_vec[%i] = %f\n", i, h_vec[i]);

    printf("Test finished\n");

    return 0;
}

请注意以下事项:

  1. 我没有将纹理绑定到cudaArray,因为无法从内核中修改cudaArray;
  2. 我没有将纹理绑定到cudaMalloc ed数组,因为绑定到cudaMalloc ed数组的纹理只能由tex1Dfetch提取而tex1Dfetch不是cudaAddressModeWrap寻址模式,保证信号在其边界外的周期性延伸;
  3. 我将纹理绑定到cudaMallocPitch ed数组,因为这样可以通过tex1D获取纹理,这允许cudaAddressModeWrap寻址模式;
  4. 我正在使用标准化坐标,因为只有那些启用cudaAddressModeWrap寻址模式。
  5. 我需要点#2#3#4,因为我从我正在编写的代码中提取了这个示例。

答案 4 :(得分:0)

我遇到了这个问题,通过一些搜索,我发现this问题和this回答它很有用。 基本上纹理记忆全局记忆。纹理内存是指可以与全局内存读取关联的特殊缓存机制。所以内核可以操纵绑定到纹理的全局内存。但正如provided link中所示,没有tex1D(ref, x) = 12.0等指令。