标签: amazon-s3 keras bigdata amazon-sagemaker
我正在从事一个深度学习项目,该项目具有成千上万个.csv文件(每个文件约15MB)中约700GB的表状时间序列数据。 所有数据都在S3上,在将其输入模型之前需要进行一些预处理。问题是如何最好地实现加载,预处理和培训过程的自动化。 定制的keras生成器是内置一些预处理器的最佳解决方案吗?
答案 0 :(得分:1)
预处理意味着您可能希望将其与模型执行脱开并单独运行,可能是按计划进行或响应于流入的新数据。
如果是这样,您可能要在SageMaker之外进行预处理。您可以使用Glue对其进行编排,也可以编写自定义作业并通过AWS Batch或在EMR集群上运行它。
这样,您的Keras笔记本可以加载已经预处理的数据,并通过SageMaker进行培训和测试。
稍加注意,您应该能够至少在预处理步骤中逐步执行一些繁重的工作,从而节省深度学习管道下游的时间和成本。