如何使用model-main.py训练张量流对象检测?

时间:2019-05-03 23:05:31

标签: tensorflow object-detection-api

我正在尝试使用新的“ model_main.py”而不是传统的train.py和eval.py,但是在使用我的图形卡在tensorflow-gpu上运行它们时遇到了问题(我的计算能力为6.1 )。一旦运行此命令,它将引发错误:
np.abs(v.min()) / v.max() 不确定是什么问题,但是它在CPU版本上没有任何问题。

我正在使用的命令:

python model_main.py --pipeline_config_path = train / ssd_mobilenet_v2_coco.config --model_dir = / train --num_train_steps = 80000 --num_eval_steps = 10 --alsologtostderr

我的tensorflow-gpu版本是1.9 ..CUDA 9.0和cuDNN 7.0 谢谢

编辑:完整的错误消息>

tensorflow.python.training.basic_session_run_hooks.NanLossDuringTrainingError: NaN loss during training.

1 个答案:

答案 0 :(得分:0)

看起来问题出在Windows环境下的tensorflow-gpu。当我切换到安装了最新 tensorflow-gpu(1.13)的Ubuntu时,此问题已解决。

值得注意的是,我曾尝试在Windows上使用tensorflow-gpu 1.13,但由于无法识别某些命令,因此对model_main.py进行了一些代码编辑。