我不需要Hive或Pig,默认情况下,Amazon Data Pipeline会将它们安装在它旋转的任何EMR集群上。这使得测试花费的时间比应该的长。有关如何禁用安装的任何想法?
答案 0 :(得分:1)
目前无法做到这一点。
唯一的解决方法是启动一个用于测试的小型EMR集群(例如单个master-m1.small)。然后使用'workergroup'而不是'runsOn'。
根据您要使用的活动类型,可能支持也可能不支持workergroup字段。但是你总是可以将所有东西都包装在脚本中(python,shell或blah),并将它与ShellCommandActivity一起使用。
更新(克里斯托弗B正确提醒):
从3.x AMI版本开始,Hive和Pig捆绑在AMI本身。因此,这些步骤不会从S3中提取任何新包,而只会激活主节点上的守护进程。因此,除非您担心它们消耗您的实例资源(CPU,内存等),否则应该没问题。他们不会花费大量的时间来跑步。