如何在不使用笔记本内置算法的情况下在s3上预处理训练数据

时间:2019-03-28 15:58:08

标签: amazon-sagemaker

我想避免在训练之前使用sagemaker笔记本和预处理数据,就像简单地将csv更改为protobuf格式一样,如以下内置模型的第一个链接所示。

https://docs.aws.amazon.com/sagemaker/latest/dg/ex1-preprocess-data-transform.html

在以下示例中,它解释了在sagemaker python-sdk的帮助下使用sklearn管道进行预处理的方法

https://aws.amazon.com/blogs/machine-learning/preprocess-input-data-before-making-predictions-using-amazon-sagemaker-inference-pipelines-and-scikit-learn/

如果仅需要进行诸如更改之类的格式并且不需要使用sklearn处理方式,那么最佳实践是什么。

1 个答案:

答案 0 :(得分:0)

没有必要使用SageMaker Notebook实例执行预处理或培训。笔记本是探索和进行实验的方式。对于生产用例,您可以使用AWS Step Functions安排ML管道中的任务,例如预处理,数据准备(功能工程,格式转换等),模型训练和评估。 Julien在他最近的演讲here中对此进行了介绍。

您可以探索使用AWS Glue通过Python脚本(通过Python Shell)或Apache Spark(Glue作业)进行预处理。在这种情况下,请参考此博客 https://aws.amazon.com/blogs/machine-learning/ensure-consistency-in-data-processing-code-between-training-and-inference-in-amazon-sagemaker/