使用SageMaker高效管理大量数据以训练keras模型

时间:2018-09-19 11:30:39

标签: amazon-s3 keras bigdata amazon-sagemaker

我正在从事一个深度学习项目,该项目具有成千上万个.csv文件(每个文件约15MB)中约700GB的表状时间序列数据。
所有数据都在S3上,在将其输入模型之前需要进行一些预处理。问题是如何最好地实现加载,预处理和培训过程的自动化。

定制的keras生成器是内置一些预处理器的最佳解决方案吗?

1 个答案:

答案 0 :(得分:1)

预处理意味着您可能希望将其与模型执行脱开并单独运行,可能是按计划进行或响应于流入的新数据。

如果是这样,您可能要在SageMaker之外进行预处理。您可以使用Glue对其进行编排,也可以编写自定义作业并通过AWS Batch或在EMR集群上运行它。

这样,您的Keras笔记本可以加载已经预处理的数据,并通过SageMaker进行培训和测试。

稍加注意,您应该能够至少在预处理步骤中逐步执行一些繁重的工作,从而节省深度学习管道下游的时间和成本。