在AMLS中使用Tensorflow进行分布式培训

时间:2019-09-12 16:24:21

标签: distributed-computing tensorflow-estimator azure-machine-learning-service

在Azure ML服务中使用TensorFlow估算器,并使用以下配置。

from azureml.core.runconfig import TensorflowConfiguration
distributed_training = TensorflowConfiguration()
distributed_training.worker_count = 3
est = TensorFlow(source_directory=script_folder,
             script_params=script_params,
             compute_target=compute_target,
             node_count=4,
             distributed_training=distributed_training,
             use_gpu=True,
             entry_script=train_script)
run = exp.submit(est)

似乎在使用此配置的过程中,单个工作人员提出了自己的经过训练的模型实例,并尝试多次注册模型。 Tensorflow培训脚本中需要处理分布式培训吗?

1 个答案:

答案 0 :(得分:0)

您需要在训练脚本中处理模型保存:将模型系数收集到一个等级,然后将其保存到该等级的文件中。

然后,您可以使用run.register_model并将已保存模型的文件夹/文件作为参数传递,从而在训练脚本之外注册模型。