Tensorflow域自适应如何同时使用两个Bazel命令?

时间:2018-03-16 14:39:54

标签: python tensorflow bazel

我正在训练具有张量流的神经网络。为此,我使用bazel run命令从https://github.com/tensorflow/models/tree/master/research/domain_adaptation运行PixelDA模型。

bazel run domain_adaptation/pixel_domain_adaptation:pixelda_train -- --dataset_dir $DSN_DATA_DIR --source_dataset mnist --target_dataset mnist_m
bazel run domain_adaptation/pixel_domain_adaptation:pixelda_eval -- --dataset_dir $DSN_DATA_DIR --source_dataset mnist --target_dataset mnist_m --target_split_name test

但我可以训练模型或评估。不是两个在同一时间。即使我通过ssh与另一台计算机进行这两个过程(因此我排除了GPU问题)

当我有一个正在运行的培训过程,然后启动eval过程时,培训将终止并显示此错误消息

Server terminated abruptly error code: 14, error message: '', log file: '/home/.../.cache/bazel/_bazel_.../c96d77bc006e939d39d6eba4227a082c/server/jvm.out'

我如何同时训练和评估?

我试图删除日志文件,我尝试启动没有像python domain_adaptation/pixel_domain_adaptation/pixelda_train.py -- --dataset_dir $DSN_DATA_DIR --source_dataset mnist --target_dataset mnist_m这样的bazel的python脚本。但后来发生了奇怪的ImportError: No module named research.domain_adaptation.pixel_domain_adaptation。如果我删除"研究"同样的事情发生了

  • echo $ PYTHONPATH是:/home/.../models/research:/home/.../models/research/slim
  • 结构为~/models/research/slim/...~/models/research/domain_adaptation/pixel_domain_adaptation/...
  • bazel version 0.11.1
  • GPU 2x Geforce GTX 1060(2x6GB),32GB RAM
  • tensorflow 1.4.1

1 个答案:

答案 0 :(得分:2)

使用此脚本代替bazel run

https://github.com/bazelbuild/bazel/blob/master/scripts/bazel-run.sh

此脚本在执行运行目标之前释放锁。