Question

我想在EMR上执行Shell脚本，以加载tarball，解压缩并在其中运行脚本。我选择此设置以保持与供应商无关。我的脚本是

#!/bin/sh
aws s3 cp s3://path_to_my_bucket/name_of.tar.gz .
tar -xzf name_of.tar.gz
. main_script.sh

main_script.sh是压缩包的一部分，还有许多其他软件包，脚本和配置文件。

如果我以Hadoop用户在主节点上运行此脚本，那么一切都会按预期进行。通过command-runner.jar作为步骤添加，无论尝试如何，我都会遇到错误。

到目前为止我尝试过的事情（以及错误）：

将bash脚本加载到主节点并执行该脚本的正确方法是什么？

作为奖励，我想知道为什么main_script.sh的设置与在Hadoop用户目录中以Hadoop用户身份运行的spark步骤如此不同。

Answer 1

您可以在区域中使用script-runner.jar

JAR位置：s3：//us-east-1.elasticmapreduce/libs/script-runner/script-runner.jar

参数：s3：//your_bucket/your_shell_script.sh