我想使用AWS Data Pipeline执行ETL过程。 假设我的进程有一个小的输入文件,我想使用自定义jar或python脚本来进行数据转换。我没有看到任何理由使用集群EMR来完成这个简单的数据步骤。所以,我想在EC2单个实例中执行此数据步骤。
查看EMRActivity对象的AWS DataPipeline,我只看到使用EMR集群运行的选项。 有没有办法在EC2实例中运行计算步骤? 这是用例的最佳解决方案吗? 或者设置一个小型EMR(使用单个节点)并执行hadoop作业是否更好?
答案 0 :(得分:1)
如果您不需要EMR集群或Hadoop框架,并且您的执行可以轻松地在单个实例上运行,那么您可以使用与Ec2Resource(实例)关联的ShellCommandActivity来执行工作。简单的例子是http://docs.aws.amazon.com/datapipeline/latest/DeveloperGuide/dp-getting-started.html