Question

我正在尝试使用新的“ model_main.py”而不是传统的train.py和eval.py，但是在使用我的图形卡在tensorflow-gpu上运行它们时遇到了问题（我的计算能力为6.1 ）。一旦运行此命令，它将引发错误：
np.abs(v.min()) / v.max() 不确定是什么问题，但是它在CPU版本上没有任何问题。

我正在使用的命令：

python model_main.py --pipeline_config_path = train / ssd_mobilenet_v2_coco.config --model_dir = / train --num_train_steps = 80000 --num_eval_steps = 10 --alsologtostderr

我的tensorflow-gpu版本是1.9 ..CUDA 9.0和cuDNN 7.0 谢谢

编辑：完整的错误消息>

tensorflow.python.training.basic_session_run_hooks.NanLossDuringTrainingError: NaN loss during training.

Answer 1

看起来问题出在Windows环境下的tensorflow-gpu。当我切换到安装了最新 tensorflow-gpu（1.13）的Ubuntu时，此问题已解决。

值得注意的是，我曾尝试在Windows上使用tensorflow-gpu 1.13，但由于无法识别某些命令，因此对model_main.py进行了一些代码编辑。

如何使用model-main.py训练张量流对象检测？

1 个答案: