我想使用自定义AMI(docker?)启动多个Amazon EC2 spot实例(fleet?)来执行深度学习培训任务。我希望所有实例共享一组通用文件,以便训练模型。
这里的想法是,当由于定价限制/需求而由AWS终止定点实例时,不会丢失培训历史并在EBS(网络驱动器?)中保留备份。任务状态可以在文件中更新,然后在实例可用时恢复。
是否可以启动所有实例并让它们协同工作以完成培训任务?什么样的设置可以实现这一目标?
答案 0 :(得分:2)
首先,您可能对AWS Marketplace中的Deep Learning AMI感兴趣,该市场完全配置了流行的深度学习工具。
如果您使用的软件希望将其数据保存到本地文件系统(而不是Amazon S3),那么您可以使用Deep Learning AMI在多个Amazon EC2实例(包括竞价型实例)之间共享文件系统)。 Amazon EFS类似于NAS,可以在多个实例中同时使用。
EFS卷可以通过User Data script和安装脚本一起安装,以加载和运行您想要的应用程序(这比制作新的AMI更容易)。