在非分布式设置中使用来自tensorflow估计器api的train_and_evaluate时,将定期打印训练损失,此外train_and_evaluate返回训练损失的记录:
training_record = tf.estimator.train_and_evaluate(estimator, train_spec, eval_spec)
但是,在分布式培训中,根据文档,train_and_evaluate的返回值是不确定的。另外,训练时不会打印任何信息。
有没有一种方法可以监视分布式训练期间的训练损失(将其打印出来,或者理想情况下将其写入文件)?