我在列主要排序中有一个尺寸为MxN的设备矩阵U.现在我想将行K提取到矢量u中。有功能来实现这一目标吗?请注意,副本需要考虑K的偏移量和M的步幅。
我正在查看函数cudaMemcpy2D,但它没有响铃,来自更LAPACK风格的API我不明白这些音调参数是什么,为什么它们不被称为简单的行和列或M和N'
答案 0 :(得分:3)
您可以使用
cublas<t>copy(handle, N, U+K, M, u, 1);
作为
#include<stdio.h>
#include<conio.h>
#include<assert.h>
#include<cublas_v2.h>
/***********************/
/* CUDA ERROR CHECKING */
/***********************/
#define gpuErrchk(ans) { gpuAssert((ans), __FILE__, __LINE__); }
inline void gpuAssert(cudaError_t code, char *file, int line, bool abort=true)
{
if (code != cudaSuccess)
{
fprintf(stderr,"GPUassert: %s %s %d\n", cudaGetErrorString(code), file, line);
if (abort) exit(code);
}
}
/*************************/
/* cuBLAS ERROR CHECKING */
/*************************/
#ifndef cublasSafeCall
#define cublasSafeCall(err) __cublasSafeCall(err, __FILE__, __LINE__)
#endif
inline void __cublasSafeCall(cublasStatus_t err, const char *file, const int line)
{
if( CUBLAS_STATUS_SUCCESS != err) {
fprintf(stderr, "CUBLAS error in file '%s', line %d\n \nerror %d \nterminating!\n",__FILE__, __LINE__,err);
getch(); cudaDeviceReset(); assert(0);
}
}
int main() {
const int M = 5;
const int N = 4;
const int K = 2;
cublasHandle_t handle;
cublasSafeCall(cublasCreate(&handle));
float* U = (float*)malloc(M*N*sizeof(float));
float* d_U;
gpuErrchk(cudaMalloc((void**)&d_U,M*N*sizeof(float)));
float* u = (float*)malloc(M*sizeof(float));
float* d_u;
gpuErrchk(cudaMalloc((void**)&d_u,N*sizeof(float)));
for (int j=0; j<N; j++)
for (int i=0; i<M; i++)
U[j*M+i] = (float)(i*j); // Column-major ordering
printf("K-th row - Input\n");
for (int j=0; j<N; j++) printf("U(K,%i) = %f\n",j,U[j*M+K]);
printf("\n\n");
gpuErrchk(cudaMemcpy(d_U,U,M*N*sizeof(float),cudaMemcpyHostToDevice));
cublasSafeCall(cublasScopy(handle, N, d_U+K, M, d_u, 1));
gpuErrchk(cudaMemcpy(u,d_u,N*sizeof(float),cudaMemcpyDeviceToHost));
printf("K-th row - Output\n");
for (int j=0; j<N; j++) printf("u(%i) = %f\n",j,u[j]);
getchar();
}
答案 1 :(得分:2)
第一部分的答案是否定的。 GPU内部的内存是线性的,就像主机端一样。如果您只想访问以列主要顺序保存的2D矩阵的行元素,则由于非合并访问而成本很高。由于GPU内存是按段配置的,因此对元素的每次访问都不仅需要获取元素本身,还需要获取段中的相邻元素,这些元素在列主要排序中主要是元素所在列的元素。您以矩阵顺序存储矩阵并访问行的元素,GPU会尝试将同步内存请求合并到最小段事务中
cudaMallocPitch
是保存2D数据的首选,它填充内存分配,因此长度为width
的每个行/列的起始地址都位于段的起始地址中。因此,当您访问行/列的所有元素时,将最小化所获取的段。使用此方法的成本浪费了内存空间。
答案 2 :(得分:1)
正如@Farzad所说,你想要的操作的内存访问模式是低效的,但除此之外,你可以通过调用cudaMemcpy2D来实现你想要的(假设u和U是int类型):
cudaMemcpy2D((void*)u, sizeof(int), (void*)(U+K), sizeof(int)*M, sizeof(int), N, cudaMemcpyDeviceToDevice);