Question

我试图按以下步骤在AWS上设置机器学习环境：-

OS: windows server 2012 r2 , 64 bit
instance: p2.xlarge
GPU : Tesla K80 series
CUDA: 9.2.148
Graphis driver: 398.26 (installed by cuda toolkit)
python : 3.5 ( tested using 2.7.15 as well) ,64 bit
IDE: Pycharm Community 2018.2, 64 bit
mxnet librabry: mxnet-cu92

现在，当我运行以下代码时：

import mxnet as mx
from mxnet import nd
mx.random.seed(1)
z = nd.ones(shape=(3,3), ctx=mx.cpu())
print(z)

它工作正常，但是当我更改 ctx = mx.gpu（）或ctx = mx.gpu（0）时，我收到错误python停止工作的信息。

cuda设置运行正常，我编译并运行了deviceQuery，bandwidthTest示例应用程序，它们提供了预期的输出。

编辑：： python崩溃详细信息为我提供了以下信息：

Fault Module Name:  ucrtbase.DLL

我尝试使用Cuda Graphis驱动程序：398.44（对于我的gpu和os，建议从cuda网站推荐）。

有解决此问题的主意吗？

Answer 1

最后，我花了近三天的时间才得到解决方案，这是mxnet库造成的问题。在尝试了不同的cuda工具包和mxnet库之后，以下结合对我有用：-

1) Cuda Toolkit - 9.2
   Mxnet lbrary : mxnet-cu92 version 1.2.0b20180525
   (Failing for most of the recent versions ) 
2)  Cuda Toolkit - 8.0
   Mxnet lbrary : mxnet-cu80 version 0.11.0
   (Failing for most of the recent versions  )

谢谢

Python停止了切换到GPU上下文的工作

1 个答案: