我试图按以下步骤在AWS上设置机器学习环境:-
OS: windows server 2012 r2 , 64 bit
instance: p2.xlarge
GPU : Tesla K80 series
CUDA: 9.2.148
Graphis driver: 398.26 (installed by cuda toolkit)
python : 3.5 ( tested using 2.7.15 as well) ,64 bit
IDE: Pycharm Community 2018.2, 64 bit
mxnet librabry: mxnet-cu92
现在,当我运行以下代码时:
import mxnet as mx
from mxnet import nd
mx.random.seed(1)
z = nd.ones(shape=(3,3), ctx=mx.cpu())
print(z)
它工作正常,但是当我更改 ctx = mx.gpu()或ctx = mx.gpu(0)时,我收到错误python停止工作的信息。
cuda设置运行正常,我编译并运行了deviceQuery
,bandwidthTest
示例应用程序,它们提供了预期的输出。
编辑:: python崩溃详细信息为我提供了以下信息:
Fault Module Name: ucrtbase.DLL
我尝试使用Cuda Graphis驱动程序:398.44(对于我的gpu和os,建议从cuda网站推荐)。
有解决此问题的主意吗?
答案 0 :(得分:0)
最后,我花了近三天的时间才得到解决方案,这是mxnet库造成的问题。在尝试了不同的cuda工具包和mxnet库之后,以下结合对我有用:-
1) Cuda Toolkit - 9.2
Mxnet lbrary : mxnet-cu92 version 1.2.0b20180525
(Failing for most of the recent versions )
2) Cuda Toolkit - 8.0
Mxnet lbrary : mxnet-cu80 version 0.11.0
(Failing for most of the recent versions )
谢谢