!python -m torch.distributed.launch --nproc_per_node=8 /root/examples/run_squad.py \
--model_type bert \
--model_name_or_path bert-large-uncased-whole-word-masking \
--do_train \
--do_eval \
--do_lower_case \
--train_file /root/DATA/train-v2.0.json \
--predict_file /root/DATA/dev-v2.0.json \
--learning_rate 3e-5 \
--num_train_epochs 2 \
--max_seq_length 384 \
--doc_stride 128 \
--output_dir ../root/result/ \
--per_gpu_eval_batch_size=3 \
--per_gpu_train_batch_size=3 \
我正在使用Google colab,我想训练从SQuad网站下载的A&Q数据集。 但是,当我运行上面的代码时,会返回错误。
有人可以帮我解决这个问题吗?完整的错误消息如下,我将不胜感激。
这是错误消息: [THCudaCheck FAIL文件= / pytorch / aten / src / THC / THCGeneral.cpp行= 50错误= 100:未检测到具有CUDA功能的设备 THCudaCheck FAIL文件= / pytorch / aten / src / THC / THCGeneral.cpp行= 50错误= 100:未检测到具有CUDA功能的设备 追溯(最近一次通话): 在第575行的文件“ /root/examples/run_squad.py” 主要() 主目录中的文件“ /root/examples/run_squad.py”,第469行 torch.cuda.set_device(args.local_rank) set_device中的文件“ /usr/local/lib/python3.6/dist-packages/torch/cuda/init.py”,第300行 火炬._C._cuda_setDevice(设备) _lazy_init中的第193行的文件“ /usr/local/lib/python3.6/dist-packages/torch/cuda/init.py” 火炬._C._cuda_init() RuntimeError:CUDA运行时错误(100):在/pytorch/aten/src/THC/THCGeneral.cpp:50上未检测到具有CUDA功能的设备 追溯(最近一次通话): 在第575行的文件“ /root/examples/run_squad.py” THCudaCheck FAIL文件= / pytorch / aten / src / THC / THCGeneral.cpp行= 50错误= 100:未检测到具有CUDA功能的设备 主要() THCudaCheck FAIL文件= / pytorch / aten / src / THC / THCGeneral.cpp行= 50错误= 100:未检测到具有CUDA功能的设备 THCudaCheck FAIL文件= / pytorch / aten / src / THC / THCGeneral.cpp行= 50错误= 100:未检测到具有CUDA功能的设备 追溯(最近一次通话): 在第575行的文件“ /root/examples/run_squad.py” 主要() THCudaCheck FAIL文件= / pytorch / aten / src / THC / THCGeneral.cpp行= 50错误= 100:未检测到具有CUDA功能的设备 主目录中的文件“ /root/examples/run_squad.py”,第469行 追溯(最近一次通话): 主目录中的文件“ /root/examples/run_squad.py”,第469行 torch.cuda.set_device(args.local_rank) set_device中的文件“ /usr/local/lib/python3.6/dist-packages/torch/cuda/init.py”,第300行 torch.cuda.set_device(args.local_rank) 火炬._C._cuda_setDevice(设备) _lazy_init中的第193行的文件“ /usr/local/lib/python3.6/dist-packages/torch/cuda/init.py” 火炬._C._cuda_init() 追溯(最近一次通话): 在第575行的文件“ /root/examples/run_squad.py” 主要() RuntimeError:CUDA运行时错误(100):在/pytorch/aten/src/THC/THCGeneral.cpp:50上未检测到具有CUDA功能的设备 set_device中的文件“ /usr/local/lib/python3.6/dist-packages/torch/cuda/init.py”,第300行 火炬._C._cuda_setDevice(设备) 在第575行的文件“ /root/examples/run_squad.py” _lazy_init中的第193行的文件“ /usr/local/lib/python3.6/dist-packages/torch/cuda/init.py” 主目录中的文件“ /root/examples/run_squad.py”,第469行 火炬._C._cuda_init() 主要() torch.cuda.set_device(args.local_rank) RuntimeError:CUDA运行时错误(100):在/pytorch/aten/src/THC/THCGeneral.cpp:50上未检测到具有CUDA功能的设备 set_device中的文件“ /usr/local/lib/python3.6/dist-packages/torch/cuda/init.py”,第300行 火炬._C._cuda_setDevice(设备) 主目录中的文件“ /root/examples/run_squad.py”,第469行 torch.cuda.set_device(args.local_rank) _lazy_init中的第193行的文件“ /usr/local/lib/python3.6/dist-packages/torch/cuda/init.py” 火炬._C._cuda_init() set_device中的文件“ /usr/local/lib/python3.6/dist-packages/torch/cuda/init.py”,第300行 火炬._C._cuda_setDevice(设备) RuntimeError:CUDA运行时错误(100):在/pytorch/aten/src/THC/THCGeneral.cpp:50上未检测到具有CUDA功能的设备 _lazy_init中的第193行的文件“ /usr/local/lib/python3.6/dist-packages/torch/cuda/init.py” 火炬._C._cuda_init() RuntimeError:CUDA运行时错误(100):在/pytorch/aten/src/THC/THCGeneral.cpp:50上未检测到具有CUDA功能的设备 追溯(最近一次通话): 在第575行的文件“ /root/examples/run_squad.py” 主要() 主目录中的文件“ /root/examples/run_squad.py”,第469行 torch.cuda.set_device(args.local_rank) set_device中的文件“ /usr/local/lib/python3.6/dist-packages/torch/cuda/init.py”,第300行 火炬._C._cuda_setDevice(设备) _lazy_init中的第193行的文件“ /usr/local/lib/python3.6/dist-packages/torch/cuda/init.py” 火炬._C._cuda_init() RuntimeError:CUDA运行时错误(100):在/pytorch/aten/src/THC/THCGeneral.cpp:50上未检测到具有CUDA功能的设备 THCudaCheck FAIL文件= / pytorch / aten / src / THC / THCGeneral.cpp行= 50错误= 100:未检测到具有CUDA功能的设备 追溯(最近一次通话): 在第575行的文件“ /root/examples/run_squad.py” 主要() 主目录中的文件“ /root/examples/run_squad.py”,第469行 torch.cuda.set_device(args.local_rank) set_device中的文件“ /usr/local/lib/python3.6/dist-packages/torch/cuda/init.py”,第300行 火炬._C._cuda_setDevice(设备) _lazy_init中的第193行的文件“ /usr/local/lib/python3.6/dist-packages/torch/cuda/init.py” 火炬._C._cuda_init() RuntimeError:CUDA运行时错误(100):在/pytorch/aten/src/THC/THCGeneral.cpp:50上未检测到具有CUDA功能的设备 THCudaCheck FAIL文件= / pytorch / aten / src / THC / THCGeneral.cpp行= 50错误= 100:未检测到具有CUDA功能的设备 追溯(最近一次通话): 在第575行的文件“ /root/examples/run_squad.py” 主要() 主目录中的文件“ /root/examples/run_squad.py”,第469行 torch.cuda.set_device(args.local_rank) set_device中的文件“ /usr/local/lib/python3.6/dist-packages/torch/cuda/init.py”,第300行 火炬._C._cuda_setDevice(设备) _lazy_init中的第193行的文件“ /usr/local/lib/python3.6/dist-packages/torch/cuda/init.py” 火炬._C._cuda_init() RuntimeError:CUDA运行时错误(100):在/pytorch/aten/src/THC/THCGeneral.cpp:50上未检测到具有CUDA功能的设备 追溯(最近一次通话): _run_module_as_main中的文件“ /usr/lib/python3.6/runpy.py”,第193行 “ 主要”,mod_spec) _run_code中的文件“ /usr/lib/python3.6/runpy.py”,第85行 exec(代码,run_globals) 在第253行的“ /usr/local/lib/python3.6/dist-packages/torch/distributed/launch.py”文件中 主要() 主目录中的文件“ /usr/local/lib/python3.6/dist-packages/torch/distributed/launch.py”,第249行 cmd = cmd) subprocess.CalledProcessError:命令'['/ usr / bin / python3','-u','/root/examples/run_squad.py','--local_rank = 7','--model_type','bert', '--model_name_or_path','bert-large-uncased-whole-word-masking','-do_train','-do_eval','-do_lower_case','-train_file','/ root / DATA / train-v2.0.json'',``--predict_file'',``/root/DATA/dev-v2.0.json''、``--learning_rate''、``3e-5''、``--num_train_epochs''、``2 ','-max_seq_length','384','-doc_stride','128','-output_dir','.. / root / result /','-per_gpu_eval_batch_size = 3','-per_gpu_train_batch_size = 3']'返回了非零退出状态1。]