我的服务器中有四个Tesla C2075,所以我刚刚测试了SDK附带的示例simpleMultiGPU。出乎意料的是我遇到了分段错误。使用cuda-gdb,我发现第二次调用cudaStreamCreate时发生了这个错误。这是deviceQuery输出:
$ deviceQuery
CUDA Driver = CUDART,
CUDA Driver Version = 4.2,
CUDA Runtime Version = 4.2,
NumDevs = 4,
Device = Tesla C2075,
Device = Tesla C2075
驱动程序版本没问题,为什么第二个cudaStreamCreate不起作用。有人可以帮助我吗?
答案 0 :(得分:1)
我首先运行nvidia-healthmon,可以从https://developer.nvidia.com/tesla-deployment-kit下载(它是TDK的一部分)。
nvidia-bug-report.sh
的输出总是非常有用。另外,从nvidia-healthmon
(--log-file
标志)登录可能会给我们一些线索。
是否有其他应用程序失败?最好通过运行SDK中的其他应用来排除其他可能性,例如vectorAdd
或matrixMul
。