在Azure ML服务中使用TensorFlow估算器,并使用以下配置。
from azureml.core.runconfig import TensorflowConfiguration
distributed_training = TensorflowConfiguration()
distributed_training.worker_count = 3
est = TensorFlow(source_directory=script_folder,
script_params=script_params,
compute_target=compute_target,
node_count=4,
distributed_training=distributed_training,
use_gpu=True,
entry_script=train_script)
run = exp.submit(est)
似乎在使用此配置的过程中,单个工作人员提出了自己的经过训练的模型实例,并尝试多次注册模型。 Tensorflow培训脚本中需要处理分布式培训吗?
答案 0 :(得分:0)
您需要在训练脚本中处理模型保存:将模型系数收集到一个等级,然后将其保存到该等级的文件中。
然后,您可以使用run.register_model并将已保存模型的文件夹/文件作为参数传递,从而在训练脚本之外注册模型。