我正在训练具有张量流的神经网络。为此,我使用bazel run命令从https://github.com/tensorflow/models/tree/master/research/domain_adaptation运行PixelDA模型。
bazel run domain_adaptation/pixel_domain_adaptation:pixelda_train -- --dataset_dir $DSN_DATA_DIR --source_dataset mnist --target_dataset mnist_m
bazel run domain_adaptation/pixel_domain_adaptation:pixelda_eval -- --dataset_dir $DSN_DATA_DIR --source_dataset mnist --target_dataset mnist_m --target_split_name test
但我可以训练模型或评估。不是两个在同一时间。即使我通过ssh与另一台计算机进行这两个过程(因此我排除了GPU问题)
当我有一个正在运行的培训过程,然后启动eval过程时,培训将终止并显示此错误消息
Server terminated abruptly error code: 14, error message: '', log file: '/home/.../.cache/bazel/_bazel_.../c96d77bc006e939d39d6eba4227a082c/server/jvm.out'
我如何同时训练和评估?
我试图删除日志文件,我尝试启动没有像python domain_adaptation/pixel_domain_adaptation/pixelda_train.py -- --dataset_dir $DSN_DATA_DIR --source_dataset mnist --target_dataset mnist_m
这样的bazel的python脚本。但后来发生了奇怪的ImportError: No module named research.domain_adaptation.pixel_domain_adaptation
。如果我删除"研究"同样的事情发生了
:/home/.../models/research:/home/.../models/research/slim
~/models/research/slim/...
和
~/models/research/domain_adaptation/pixel_domain_adaptation/...
答案 0 :(得分:2)
使用此脚本代替bazel run
。
https://github.com/bazelbuild/bazel/blob/master/scripts/bazel-run.sh
此脚本在执行运行目标之前释放锁。