是否有SageMaker资源提供有关如何使用自定义算法以分布式方式进行培训的信息?

时间:2019-01-10 17:43:34

标签: amazon-sagemaker

我已经看到SageMaker的内置算法支持分布式训练。但是,我还没有找到有关如何构造数据和/或包含自定义算法的图像的文档,以便可以以分布式方式进行培训。在这里的任何帮助将不胜感激。

1 个答案:

答案 0 :(得分:0)

这已经在这里讨论:AWS Sagemaker custom user algorithms: how to take advantage of extra instances

基本上,您需要管理不同容器之间的通信。您会在这里找到一些指针: https://docs.aws.amazon.com/sagemaker/latest/dg/your-algorithms-training-algo.html#your-algorithms-training-algo-running-container-dist-training

或者,您可以使用一种内置算法(对象分类,检测,分段)或一种内置DL环境(TF,MXNet等)。使用自定义容器有什么特殊原因吗?