squad2.0训练错误:THCudaCheck FAIL file = / pytorch / aten / src / THC / THCGeneral.cpp line = 50 error = 100:未检测到具有CUDA功能的设备

时间:2019-12-07 02:51:21

标签: python tensorflow transformer language-model

!python -m torch.distributed.launch --nproc_per_node=8 /root/examples/run_squad.py \
    --model_type bert \
    --model_name_or_path bert-large-uncased-whole-word-masking \
    --do_train \
    --do_eval \
    --do_lower_case \
    --train_file /root/DATA/train-v2.0.json \
    --predict_file /root/DATA/dev-v2.0.json \
    --learning_rate 3e-5 \
    --num_train_epochs 2 \
    --max_seq_length 384 \
    --doc_stride 128 \
    --output_dir ../root/result/ \
    --per_gpu_eval_batch_size=3   \
    --per_gpu_train_batch_size=3   \

我正在使用Google colab,我想训练从SQuad网站下载的A&Q数据集。 但是,当我运行上面的代码时,会返回错误。

有人可以帮我解决这个问题吗?完整的错误消息如下,我将不胜感激。

这是错误消息:     [THCudaCheck FAIL文件= / pytorch / aten / src / THC / THCGeneral.cpp行= 50错误= 100:未检测到具有CUDA功能的设备     THCudaCheck FAIL文件= / pytorch / aten / src / THC / THCGeneral.cpp行= 50错误= 100:未检测到具有CUDA功能的设备     追溯(最近一次通话):       在第575行的文件“ /root/examples/run_squad.py”         主要()       主目录中的文件“ /root/examples/run_squad.py”,第469行         torch.cuda.set_device(args.local_rank)       set_device中的文件“ /usr/local/lib/python3.6/dist-packages/torch/cuda/init.py”,第300行         火炬._C._cuda_setDevice(设备)       _lazy_init中的第193行的文件“ /usr/local/lib/python3.6/dist-packages/torch/cuda/init.py”         火炬._C._cuda_init()     RuntimeError:CUDA运行时错误(100):在/pytorch/aten/src/THC/THCGeneral.cpp:50上未检测到具有CUDA功能的设备     追溯(最近一次通话):       在第575行的文件“ /root/examples/run_squad.py”     THCudaCheck FAIL文件= / pytorch / aten / src / THC / THCGeneral.cpp行= 50错误= 100:未检测到具有CUDA功能的设备         主要()     THCudaCheck FAIL文件= / pytorch / aten / src / THC / THCGeneral.cpp行= 50错误= 100:未检测到具有CUDA功能的设备     THCudaCheck FAIL文件= / pytorch / aten / src / THC / THCGeneral.cpp行= 50错误= 100:未检测到具有CUDA功能的设备     追溯(最近一次通话):       在第575行的文件“ /root/examples/run_squad.py”         主要()     THCudaCheck FAIL文件= / pytorch / aten / src / THC / THCGeneral.cpp行= 50错误= 100:未检测到具有CUDA功能的设备       主目录中的文件“ /root/examples/run_squad.py”,第469行     追溯(最近一次通话):       主目录中的文件“ /root/examples/run_squad.py”,第469行         torch.cuda.set_device(args.local_rank)       set_device中的文件“ /usr/local/lib/python3.6/dist-packages/torch/cuda/init.py”,第300行         torch.cuda.set_device(args.local_rank)         火炬._C._cuda_setDevice(设备)       _lazy_init中的第193行的文件“ /usr/local/lib/python3.6/dist-packages/torch/cuda/init.py”         火炬._C._cuda_init()     追溯(最近一次通话):       在第575行的文件“ /root/examples/run_squad.py”         主要()     RuntimeError:CUDA运行时错误(100):在/pytorch/aten/src/THC/THCGeneral.cpp:50上未检测到具有CUDA功能的设备       set_device中的文件“ /usr/local/lib/python3.6/dist-packages/torch/cuda/init.py”,第300行         火炬._C._cuda_setDevice(设备)       在第575行的文件“ /root/examples/run_squad.py”       _lazy_init中的第193行的文件“ /usr/local/lib/python3.6/dist-packages/torch/cuda/init.py”       主目录中的文件“ /root/examples/run_squad.py”,第469行         火炬._C._cuda_init()         主要()         torch.cuda.set_device(args.local_rank)     RuntimeError:CUDA运行时错误(100):在/pytorch/aten/src/THC/THCGeneral.cpp:50上未检测到具有CUDA功能的设备       set_device中的文件“ /usr/local/lib/python3.6/dist-packages/torch/cuda/init.py”,第300行         火炬._C._cuda_setDevice(设备)       主目录中的文件“ /root/examples/run_squad.py”,第469行         torch.cuda.set_device(args.local_rank)       _lazy_init中的第193行的文件“ /usr/local/lib/python3.6/dist-packages/torch/cuda/init.py”         火炬._C._cuda_init()       set_device中的文件“ /usr/local/lib/python3.6/dist-packages/torch/cuda/init.py”,第300行         火炬._C._cuda_setDevice(设备)     RuntimeError:CUDA运行时错误(100):在/pytorch/aten/src/THC/THCGeneral.cpp:50上未检测到具有CUDA功能的设备       _lazy_init中的第193行的文件“ /usr/local/lib/python3.6/dist-packages/torch/cuda/init.py”         火炬._C._cuda_init()     RuntimeError:CUDA运行时错误(100):在/pytorch/aten/src/THC/THCGeneral.cpp:50上未检测到具有CUDA功能的设备     追溯(最近一次通话):       在第575行的文件“ /root/examples/run_squad.py”         主要()       主目录中的文件“ /root/examples/run_squad.py”,第469行         torch.cuda.set_device(args.local_rank)       set_device中的文件“ /usr/local/lib/python3.6/dist-packages/torch/cuda/init.py”,第300行         火炬._C._cuda_setDevice(设备)       _lazy_init中的第193行的文件“ /usr/local/lib/python3.6/dist-packages/torch/cuda/init.py”         火炬._C._cuda_init()     RuntimeError:CUDA运行时错误(100):在/pytorch/aten/src/THC/THCGeneral.cpp:50上未检测到具有CUDA功能的设备     THCudaCheck FAIL文件= / pytorch / aten / src / THC / THCGeneral.cpp行= 50错误= 100:未检测到具有CUDA功能的设备     追溯(最近一次通话):       在第575行的文件“ /root/examples/run_squad.py”         主要()       主目录中的文件“ /root/examples/run_squad.py”,第469行         torch.cuda.set_device(args.local_rank)       set_device中的文件“ /usr/local/lib/python3.6/dist-packages/torch/cuda/init.py”,第300行         火炬._C._cuda_setDevice(设备)       _lazy_init中的第193行的文件“ /usr/local/lib/python3.6/dist-packages/torch/cuda/init.py”         火炬._C._cuda_init()     RuntimeError:CUDA运行时错误(100):在/pytorch/aten/src/THC/THCGeneral.cpp:50上未检测到具有CUDA功能的设备     THCudaCheck FAIL文件= / pytorch / aten / src / THC / THCGeneral.cpp行= 50错误= 100:未检测到具有CUDA功能的设备     追溯(最近一次通话):       在第575行的文件“ /root/examples/run_squad.py”         主要()       主目录中的文件“ /root/examples/run_squad.py”,第469行         torch.cuda.set_device(args.local_rank)       set_device中的文件“ /usr/local/lib/python3.6/dist-packages/torch/cuda/init.py”,第300行         火炬._C._cuda_setDevice(设备)       _lazy_init中的第193行的文件“ /usr/local/lib/python3.6/dist-packages/torch/cuda/init.py”         火炬._C._cuda_init()     RuntimeError:CUDA运行时错误(100):在/pytorch/aten/src/THC/THCGeneral.cpp:50上未检测到具有CUDA功能的设备     追溯(最近一次通话):       _run_module_as_main中的文件“ /usr/lib/python3.6/runpy.py”,第193行         “ 主要”,mod_spec)       _run_code中的文件“ /usr/lib/python3.6/runpy.py”,第85行         exec(代码,run_globals)       在第253行的“ /usr/local/lib/python3.6/dist-packages/torch/distributed/launch.py​​”文件中         主要()       主目录中的文件“ /usr/local/lib/python3.6/dist-packages/torch/distributed/launch.py​​”,第249行         cmd = cmd)     subprocess.CalledProcessError:命令'['/ usr / bin / python3','-u','/root/examples/run_squad.py','--local_rank = 7','--model_type','bert', '--model_name_or_path','bert-large-uncased-whole-word-masking','-do_train','-do_eval','-do_lower_case','-train_file','/ root / DATA / train-v2.0.json'',``--predict_file'',``/root/DATA/dev-v2.0.json''、``--learning_rate''、``3e-5''、``--num_train_epochs''、``2 ','-max_seq_length','384','-doc_stride','128','-output_dir','.. / root / result /','-per_gpu_eval_batch_size = 3','-per_gpu_train_batch_size = 3']'返回了非零退出状态1。]

enter image description here

0 个答案:

没有答案