Question

我熟悉一个配备Pascal P100 GPU + Nvlink的新集群。我写了一个ping-pong程序来测试gpu＆lt; - ＆gt; gpu和gpu＆lt; - ＆gt; cpu带宽和点对点访问。（我知道cuda样本包含这样的程序，但我想自己做以便更好地理解。）Nvlink带宽看似合理（双向约35 GB / s，理论最大值为40）。然而，在调试乒乓球时，我发现了一些奇怪的行为。

首先，无论我指定什么cudaMemcpyKind，cudaMemcpyAsync都会成功，例如，如果cudaMemcpyAsync正在将内存从主机复制到设备，即使我将cudaMemcpyDeviceToHost作为类型传递，它也会成功。

其次，当主机内存未被页面锁定时，cudaMemcpyAsync会执行以下操作：

将内存从主机复制到设备似乎成功（没有segfaults或cuda运行时错误，数据似乎正确传输）。
将内存从设备复制到主机无声地失败：没有发生segfault，memcpy返回cudaSuccess后cudaDeviceSynchronize，但检查数据显示gpu上的数据没有正确传输到主机。

这种行为是期待的吗？我已经包含了一个在我的系统上演示它的最小工作示例代码（示例不是乒乓应用程序，它所做的只是使用各种参数测试cudaMemcpyAsync）。

P100s启用了UVA，因此我认为cudaMemcpyAsync只是推断src和dst指针的位置并忽略cudaMemcpyKind参数。但是，我不确定为什么cudaMemcpyAsync无法为非页面锁定的主机内存引发错误。我的印象是严格的禁忌。

#include <stdio.h>
#include <cuda_runtime.h>
#include <stdlib.h>

#define gpuErrchk(ans) { gpuAssert((ans), __FILE__, __LINE__); }
inline void gpuAssert(cudaError_t code, const char *file, int line, bool abort=true)
{
   if (code != cudaSuccess)
   {
      fprintf(stderr,"GPUassert: %s %s %d\n", cudaGetErrorString(code), file, line);
      if (abort) exit(code);
   }
}

__global__ void checkDataDevice( int* current, int* next, int expected_current_val, int n )
{
  int tid = threadIdx.x + blockIdx.x*blockDim.x;
  for( int i = tid; i < n; i += blockDim.x*gridDim.x )
  {
    if( current[i] != expected_current_val )
      printf( "Error on device:  expected = %d, current[%d] = %d\n"
          , expected_current_val
          , i
          , current[i] );
    // Increment the data so the next copy is properly tested
    next[i] = current[i] + 1;
  }
}

void checkDataHost( int* current, int* next, int expected_current_val, int n )
{
  for( int i = 0; i < n; i++ )
  {
    if( current[i] != expected_current_val )
      printf( "Error on host:  expected = %d, current[%d] = %d\n"
          , expected_current_val
          , i
          , current[i] );
    // Increment the data so the next copy is properly tested
    next[i] = current[i] + 1;
  }
}

int main( int argc, char** argv )
{
  bool pagelocked = true;
  // invoking the executable with any additional argument(s) will turn off page locked memory, i.e.,
  // Run with pagelocked memory:  ./a.out
  // Run with ordinary malloc'd memory: ./a.out jkfdlsja
  if( argc > 1 )
    pagelocked = false;

  int copybytes = 1e8; // Ok to use int instead of size_t for 1e8.

  cudaStream_t* stream = (cudaStream_t*)malloc( sizeof(cudaStream_t) );
  cudaStreamCreate( stream );

  int* srcHost;
  int* dstHost;
  int* srcDevice;
  int* dstDevice;

  cudaMalloc( (void**)&srcDevice, copybytes );
  cudaMalloc( (void**)&dstDevice, copybytes );
  if( pagelocked )
  {
    printf( "Using page locked memory\n" );
    cudaMallocHost( (void**)&srcHost, copybytes );
    cudaMallocHost( (void**)&dstHost, copybytes );
  }
  else
  {
    printf( "Using non page locked memory\n" );
    srcHost = (int*)malloc( copybytes );
    dstHost = (int*)malloc( copybytes );
  }

  for( int i = 0; i < copybytes/sizeof(int); i++ )
    srcHost[i] = 1;

  cudaMemcpyKind kinds[4];
  kinds[0] = cudaMemcpyHostToDevice;
  kinds[1] = cudaMemcpyDeviceToHost;
  kinds[2] = cudaMemcpyHostToHost;
  kinds[3] = cudaMemcpyDeviceToDevice;

  // Test cudaMemcpyAsync in both directions,
  // iterating through all "cudaMemcpyKinds" to verify
  // that they don't matter.
  int expected_current_val = 1;
  for( int kind = 0; kind<4; kind++ )
  {
    // Host to device copy 
    cudaMemcpyAsync( dstDevice
        , srcHost
        , copybytes
        , kinds[kind]
        , *stream );
    gpuErrchk( cudaDeviceSynchronize() );

    checkDataDevice<<<56*8,256>>>( dstDevice
        , srcDevice
        , expected_current_val
        , copybytes/sizeof(int) );
    expected_current_val++;

    // Device to host copy
    cudaMemcpyAsync( dstHost
        , srcDevice
        , copybytes
        , kinds[kind]
        , *stream );
    gpuErrchk( cudaDeviceSynchronize() );

    checkDataHost( dstHost
        , srcHost
        , expected_current_val
        , copybytes/sizeof(int) );
    expected_current_val++;
  }

  free( stream );

  cudaFree( srcDevice );
  cudaFree( dstDevice );
  if( pagelocked )
  {
    cudaFreeHost( srcHost );
    cudaFreeHost( dstHost );
  }
  else
  {
    free( srcHost );
    free( dstHost );
  }

  return 0;
}

Answer 1

如果遇到CUDA代码问题，我强烈建议使用严格（==检查每个调用返回代码）proper CUDA error checking。

您的错误检查存在缺陷，并且这些缺陷会导致您的一些混淆。

首先，在页面锁定的情况下，给定（映射）指针在主机和设备上都是可访问/有效的。因此，每个可能的方向枚举（H2D，D2H，D2D，H2H）都是合法且有效的。因此，不会返回任何错误，并且复制操作成功。

在非页面锁定的情况下，上述情况并非如此，因此一般来说，指示的传输方向更好地匹配隐含的传输方向，如指针所检查的那样。如果没有，cudaMemcpyAsync将返回错误代码（cudaErrorInvalidValue == 11）。在您的情况下，您忽略此错误结果。如果你有足够的耐心（如果你只是标记了第一个错误，而不是打印10M +元素中的每个不匹配会更好），你可以通过cuda-memcheck运行你的代码来证明这一点（另一件好事）当你遇到CUDA代码时遇到问题），或者只是进行适当，严格的错误检查。

当cudaMemcpyAsync操作指示失败时，操作未成功完成，因此不会复制数据，并且数据检查表明不匹配。希望现在这并不奇怪，因为预期的复制操作实际上并没有发生（也没有失败＆＃34;默默地＆＃34;）。

也许你很困惑，认为在任何类型的异步操作中捕获错误的方法是执行cudaDeviceSynchronize，然后检查错误。

这对cudaMemcpyAsync不正确。在调用cudaMemcpyAsync操作时可以检测到的错误将由调用本身立即返回，并且由于后续CUDA调用（显然），将不会返回错误是非粘性的。

故事的寓意：

进行适当的CUDA错误检查。严格。

使用cuda-memcheck运行代码。

这是一个功能齐全的示例，对您的代码进行了一些微不足道的修改，以使输出更加健全＆＃34;在失败的情况下，证明在失败案例中指出了错误：

$ cat t153.cu #include <stdio.h> #include <stdlib.h> #define gpuErrchk(ans) { gpuAssert((ans), __FILE__, __LINE__); } inline void gpuAssert(cudaError_t code, const char *file, int line, bool abort=true) { if (code != cudaSuccess) { fprintf(stderr,"GPUassert: %s %s %d\n", cudaGetErrorString(code), file, line); if (abort) exit(code); } } __global__ void checkDataDevice( int* current, int* next, int expected_current_val, int n ) { int tid = threadIdx.x + blockIdx.x*blockDim.x; for( int i = tid; i < n; i += blockDim.x*gridDim.x ) { if( current[i] != expected_current_val ) printf( "Error on device: expected = %d, current[%d] = %d\n" , expected_current_val , i , current[i] ); // Increment the data so the next copy is properly tested next[i] = current[i] + 1; } } void checkDataHost( int* current, int* next, int expected_current_val, int n ) { for( int i = 0; i < n; i++ ) { if( current[i] != expected_current_val ){ printf( "Error on host: expected = %d, current[%d] = %d\n" , expected_current_val , i , current[i] ); exit(0);} // Increment the data so the next copy is properly tested next[i] = current[i] + 1; } } int main( int argc, char** argv ) { bool pagelocked = true; // invoking the executable with any additional argument(s) will turn off page locked memory, i.e., // Run with pagelocked memory: ./a.out // Run with ordinary malloc'd memory: ./a.out jkfdlsja if( argc > 1 ) pagelocked = false; int copybytes = 1e8; // Ok to use int instead of size_t for 1e8. cudaStream_t* stream = (cudaStream_t*)malloc( sizeof(cudaStream_t) ); cudaStreamCreate( stream ); int* srcHost; int* dstHost; int* srcDevice; int* dstDevice; cudaMalloc( (void**)&srcDevice, copybytes ); cudaMalloc( (void**)&dstDevice, copybytes ); if( pagelocked ) { printf( "Using page locked memory\n" ); cudaMallocHost( (void**)&srcHost, copybytes ); cudaMallocHost( (void**)&dstHost, copybytes ); } else { printf( "Using non page locked memory\n" ); srcHost = (int*)malloc( copybytes ); dstHost = (int*)malloc( copybytes ); } for( int i = 0; i < copybytes/sizeof(int); i++ ) srcHost[i] = 1; cudaMemcpyKind kinds[4]; kinds[0] = cudaMemcpyHostToDevice; kinds[1] = cudaMemcpyDeviceToHost; kinds[2] = cudaMemcpyHostToHost; kinds[3] = cudaMemcpyDeviceToDevice; // Test cudaMemcpyAsync in both directions, // iterating through all "cudaMemcpyKinds" to verify // that they don't matter. int expected_current_val = 1; for( int kind = 0; kind<4; kind++ ) { // Host to device copy cudaMemcpyAsync( dstDevice , srcHost , copybytes , kinds[kind] , *stream ); gpuErrchk( cudaDeviceSynchronize() ); checkDataDevice<<<56*8,256>>>( dstDevice , srcDevice , expected_current_val , copybytes/sizeof(int) ); expected_current_val++; // Device to host copy cudaMemcpyAsync( dstHost , srcDevice , copybytes , kinds[kind] , *stream ); gpuErrchk( cudaDeviceSynchronize() ); checkDataHost( dstHost , srcHost , expected_current_val , copybytes/sizeof(int) ); expected_current_val++; } free( stream ); cudaFree( srcDevice ); cudaFree( dstDevice ); if( pagelocked ) { cudaFreeHost( srcHost ); cudaFreeHost( dstHost ); } else { free( srcHost ); free( dstHost ); } return 0; } $ nvcc -arch=sm_61 -o t153 t153.cu $ cuda-memcheck ./t153 a ========= CUDA-MEMCHECK Using non page locked memory ========= Program hit cudaErrorInvalidValue (error 11) due to "invalid argument" on CUDA API call to cudaMemcpyAsync. ========= Saved host backtrace up to driver entry point at error ========= Host Frame:/usr/lib/x86_64-linux-gnu/libcuda.so.1 [0x2ef423] ========= Host Frame:./t153 [0x489a3] ========= Host Frame:./t153 [0x2e11] ========= Host Frame:/lib/x86_64-linux-gnu/libc.so.6 (__libc_start_main + 0xf5) [0x21ec5] ========= Host Frame:./t153 [0x2a49] ========= Error on host: expected = 2, current[0] = 0 ========= ERROR SUMMARY: 1 error $

cudaMemcpyAsync奇怪的行为：1。cudaMemcpyKind没什么区别。 2.复制失败，但是无声

1 个答案: