使用CUDA的GPU设备和零拷贝固定内存

时间:2012-09-19 12:16:58

标签: parallel-processing cuda sparse-matrix matrix-multiplication

我在CUDA机器上使用CUSP库进行稀疏矩阵乘法。我目前的代码是

#include <cusp/coo_matrix.h>
#include <cusp/multiply.h>
#include <cusp/print.h>
#include <cusp/transpose.h>
#include<stdio.h>
#define CATAGORY_PER_SCAN 1000
#define TOTAL_CATAGORY 100000
#define MAX_SIZE 1000000
#define ELEMENTS_PER_CATAGORY 10000 
#define ELEMENTS_PER_TEST_CATAGORY 1000
#define INPUT_VECTOR 1000
#define TOTAL_ELEMENTS ELEMENTS_PER_CATAGORY * CATAGORY_PER_SCAN
#define TOTAL_TEST_ELEMENTS ELEMENTS_PER_TEST_CATAGORY * INPUT_VECTOR
int main(void)
{
    cudaEvent_t start, stop;
    cudaEventCreate(&start);
    cudaEventCreate(&stop);
    cudaEventRecord(start, 0);
    cusp::coo_matrix<long long int, double, cusp::host_memory> A(CATAGORY_PER_SCAN,MAX_SIZE,TOTAL_ELEMENTS);
    cusp::coo_matrix<long long int, double, cusp::host_memory> B(MAX_SIZE,INPUT_VECTOR,TOTAL_TEST_ELEMENTS);

    for(int i=0; i< ELEMENTS_PER_TEST_CATAGORY;i++){    
        for(int j = 0;j< INPUT_VECTOR ; j++){
            int index = i * INPUT_VECTOR + j ;
            B.row_indices[index] = i; B.column_indices[ index ] = j; B.values[index ] = i;
        }    
    }
    for(int i = 0;i < CATAGORY_PER_SCAN;  i++){
        for(int j=0; j< ELEMENTS_PER_CATAGORY;j++){     
            int index = i * ELEMENTS_PER_CATAGORY + j ;
            A.row_indices[index] = i; A.column_indices[ index ] = j; A.values[index ] = i;
        }    
    }
    /*cusp::print(A);
    cusp::print(B); */
    //test vector
    cusp::coo_matrix<long int, double, cusp::device_memory> A_d = A;
    cusp::coo_matrix<long int, double, cusp::device_memory> B_d = B;

        // allocate output vector
    cusp::coo_matrix<int, double, cusp::device_memory>  y_d(CATAGORY_PER_SCAN, INPUT_VECTOR ,CATAGORY_PER_SCAN * INPUT_VECTOR);
    cusp::multiply(A_d, B_d, y_d);
    cusp::coo_matrix<int, double, cusp::host_memory> y=y_d;
    cudaEventRecord(stop, 0);
    cudaEventSynchronize(stop);
    float elapsedTime;
    cudaEventElapsedTime(&elapsedTime, start, stop); // that's our time!
    printf("time elaplsed %f ms\n",elapsedTime);
    return 0;
}

cusp :: multiply函数仅使用1个GPU(据我所知)。

  1. 如何使用setDevice()在GPU上运行相同的程序(每个GPU一个cusp :: multiply)。
  2. 准确测量总时间。
  3. 我如何在此库中使用零拷贝固定内存,因为我可以自己使用malloc。

1 个答案:

答案 0 :(得分:1)

  

1如何使用setDevice()在GPU上运行相同的程序

如果您的意思是“如何使用两个GPU执行单个cusp::multiply操作”,答案是您不能。


编辑:

对于您想在不同的GPU上运行两个独立的CUSP稀疏矩阵 - 矩阵产品的情况,可以简单地将操作包装在一个循环中并在传输之前调用cudaSetDevice并{{1}打电话。你可能不会这样做,但是通过这样做可以加快速度。我认为我说内存传输和cusp::multiply操作都是阻塞调用是正确的,因此主机CPU将停止运行直到完成。因此,对不同GPU的调用不能重叠,并且在单个GPU上执行相同操作两次将不会加速。如果您愿意使用多线程应用程序并拥有具有多个内核的主机CPU,您可能仍然可以并行运行它们,但它不会像您希望的那样直接显示主机代码。

  

2准确测量总时间

您现在拥有的cusp::multiply方法是衡量单个内核执行时间的最准确方法。如果你有一个hypthetical multi-gpu方案,那么每个GPU上下文的事件总和将是内核的总执行时间。如果按总时间表示完成操作的“wallclock”时间,则需要在代码的整个multigpu段周围使用主机计时器。我隐约回想起在最新版本的CUDA中可能有可能在某些情况下在来自不同上下文的流中的事件之间进行同步,因此在这种情况下,基于CUDA事件的计时器可能仍然可用。

  

3如何在此库中使用零拷贝固定内存,因为我可以自己使用malloc。

据我所知,这是不可能的。 CUSP使用的基础推力库可以使用零拷贝内存支持容器,但CUSP不会在标准矩阵构造函数中公开必要的机制,以便能够在零拷贝内存中分配CUSP稀疏矩阵。