在像ml.p3.2xlarge
这样的SageMaker上运行非本地实例时,我不能使用本地file://
URI,而必须使用s3://
,因为这是一个新实例,所以这很有意义。
但是,对于100GB数据集tf_estimator.fit(s3://bucket/path/to/my/data)
使用s3 URI时
因此我可以使用更大的非本地训练实例,我必须等待大约10分钟,以便将数据从s3下载到实例。
即使在报价为10gig / second或更快的连接的实例上,这似乎也是一个问题。
在等待时间附近是否有办法解决,似乎对于更大的数据集来说将是一个严重的问题?
答案 0 :(得分:0)
延迟是由启动训练作业时需要执行的多个操作引起的,这些操作包括预配实例,下载算法docker映像以及下载数据集。 SageMaker团队正在不断改进平台以减少延迟。同时,如果您正在使用深度学习框架运行培训工作,则可以在测试笔记本实例时利用本地模式功能来运行培训工作。之后,您可以在远程集群上启动训练作业,以针对大型数据集训练模型。
要启用本地模式,只需在笔记本实例中启动训练作业时将实例类型指定为“本地”即可。有关本地模型的更多详细信息,请参见:https://github.com/aws/sagemaker-python-sdk#sagemaker-python-sdk-overview