应用错误收集

时间：2018-09-19 11:30:39

标签： amazon-s3 keras bigdata amazon-sagemaker

我正在从事一个深度学习项目，该项目具有成千上万个.csv文件（每个文件约15MB）中约700GB的表状时间序列数据。
所有数据都在S3上，在将其输入模型之前需要进行一些预处理。问题是如何最好地实现加载，预处理和培训过程的自动化。

定制的keras生成器是内置一些预处理器的最佳解决方案吗？

答案 0 :(得分：1)

预处理意味着您可能希望将其与模型执行脱开并单独运行，可能是按计划进行或响应于流入的新数据。

如果是这样，您可能要在SageMaker之外进行预处理。您可以使用Glue对其进行编排，也可以编写自定义作业并通过AWS Batch或在EMR集群上运行它。

这样，您的Keras笔记本可以加载已经预处理的数据，并通过SageMaker进行培训和测试。

稍加注意，您应该能够至少在预处理步骤中逐步执行一些繁重的工作，从而节省深度学习管道下游的时间和成本。