如何在Amazon Data Pipeline中停止hive / pig安装?

时间:2014-01-17 18:51:55

标签: emr amazon-data-pipeline

我不需要Hive或Pig,默认情况下,Amazon Data Pipeline会将它们安装在它旋转的任何EMR集群上。这使得测试花费的时间比应该的长。有关如何禁用安装的任何想法?

1 个答案:

答案 0 :(得分:1)

目前无法做到这一点。

唯一的解决方法是启动一个用于测试的小型EMR集群(例如单个master-m1.small)。然后使用'workergroup'而不是'runsOn'。

根据您要使用的活动类型,可能支持也可能不支持workergroup字段。但是你总是可以将所有东西都包装在脚本中(python,shell或blah),并将它与ShellCommandActivity一起使用。


更新(克里斯托弗B正确提醒):

从3.x AMI版本开始,Hive和Pig捆绑在AMI本身。因此,这些步骤不会从S3中提取任何新包,而只会激活主节点上的守护进程。因此,除非您担心它们消耗您的实例资源(CPU,内存等),否则应该没问题。他们不会花费大量的时间来跑步。