我已经看到SageMaker的内置算法支持分布式训练。但是,我还没有找到有关如何构造数据和/或包含自定义算法的图像的文档,以便可以以分布式方式进行培训。在这里的任何帮助将不胜感激。
答案 0 :(得分:0)
这已经在这里讨论:AWS Sagemaker custom user algorithms: how to take advantage of extra instances
基本上,您需要管理不同容器之间的通信。您会在这里找到一些指针: https://docs.aws.amazon.com/sagemaker/latest/dg/your-algorithms-training-algo.html#your-algorithms-training-algo-running-container-dist-training
或者,您可以使用一种内置算法(对象分类,检测,分段)或一种内置DL环境(TF,MXNet等)。使用自定义容器有什么特殊原因吗?