使用AWS Data管道 - EMR与EC2

时间:2015-10-06 13:31:30

标签: amazon-web-services amazon-ec2 emr amazon-data-pipeline

我想使用AWS Data Pipeline执行ETL过程。 假设我的进程有一个小的输入文件,我想使用自定义jar或python脚本来进行数据转换。我没有看到任何理由使用集群EMR来完成这个简单的数据步骤。所以,我想在EC2单个实例中执行此数据步骤。

查看EMRActivity对象的AWS DataPipeline,我只看到使用EMR集群运行的选项。 有没有办法在EC2实例中运行计算步骤? 这是用例的最佳解决方案吗? 或者设置一个小型EMR(使用单个节点)并执行hadoop作业是否更好?

1 个答案:

答案 0 :(得分:1)

如果您不需要EMR集群或Hadoop框架,并且您的执行可以轻松地在单个实例上运行,那么您可以使用与Ec2Resource(实例)关联的ShellCommandActivity来执行工作。简单的例子是http://docs.aws.amazon.com/datapipeline/latest/DeveloperGuide/dp-getting-started.html