AWS Sagemaker是否以PIPE模式(用于模型训练)为S3流数据收费?

时间:2019-08-04 14:12:11

标签: amazon-web-services tensorflow amazon-s3 amazon-sagemaker

在Sagemaker的AWS开发人员文档中,他们建议我们使用PIPE模式将大型数据集从S3直接流式传输到模型训练容器(因为它更快,使用更少的磁盘存储,减少了训练时间等)。

但是,它们不包含有关是否为该数据流传输收费的信息(它们仅包括其模型构建和部署阶段的数据传输价格,而不包括培训费用)。

因此,我想问问是否有人知道PIPE模式下的这种数据传输是否收费,因为如果收费,我不知道如何推荐大型数据集,因为每个模型流了几个纪元对于大型数据集,迭代可能会变得非常昂贵(例如,我的数据集在S3上为6.3TB)。

谢谢!

2 个答案:

答案 0 :(得分:3)

您为S3 GET呼叫支付的费用与使用培训的FILE选项时要收取的费用类似。但是,与替代方案相比,这些费用通常是微不足道的。

使用FILE模式时,您需要为实例上的本地EBS付费,并需要为实例启动额外的时间,仅从S3复制数据。如果您正在运行多个时期,那么从PIPE模式中不会受益匪浅,但是,当您拥有大量数据(6.3 TB)时,您实际上并不需要运行多个时期。

PIPE模式的最佳用法是可以对数据使用单次通过的情况。在大数据时代,这是一个更好的操作模型,因为您不能经常重新训练模型。在SageMaker中,您可以在“模型”通道中指向“旧”模型,在“火车”通道中指向“新”数据,并从PIPE模式中获得最大收益。

答案 1 :(得分:0)

我刚刚意识到,在S3的官方定价页面上,数据传输部分下显示以下内容:

  

在S3存储桶之间或从Amazon S3到同一AWS区域内的任何服务的传输都是免费的。

而且由于我的S3存储桶和Sagemaker实例位于同一AWS区域中,因此数据传输成本应该是免费的。