我正在尝试使用新的“ model_main.py”而不是传统的train.py和eval.py,但是在使用我的图形卡在tensorflow-gpu上运行它们时遇到了问题(我的计算能力为6.1 )。一旦运行此命令,它将引发错误:
np.abs(v.min()) / v.max()
不确定是什么问题,但是它在CPU版本上没有任何问题。
我正在使用的命令:
python model_main.py --pipeline_config_path = train / ssd_mobilenet_v2_coco.config --model_dir = / train --num_train_steps = 80000 --num_eval_steps = 10 --alsologtostderr
我的tensorflow-gpu版本是1.9 ..CUDA 9.0和cuDNN 7.0 谢谢编辑:完整的错误消息>
tensorflow.python.training.basic_session_run_hooks.NanLossDuringTrainingError: NaN loss during training.
答案 0 :(得分:0)
看起来问题出在Windows环境下的tensorflow-gpu。当我切换到安装了最新 tensorflow-gpu(1.13)的Ubuntu时,此问题已解决。
值得注意的是,我曾尝试在Windows上使用tensorflow-gpu 1.13,但由于无法识别某些命令,因此对model_main.py进行了一些代码编辑。