我正在尝试按照Kyle Mulka的博客“http://blog.kylemulka.com/2012/04/how-to-install-sqoop-on-amazon-elastic-map-reduce-emr/#comments”中描述的步骤在Amazon EMR集群上安装Sqoop。
在S3位置上传所需文件后,我尝试通过CLI运行以下EMR作业。
./elastic-mapreduce --create --name SQOOP-INSTALL --jar s3://<YOUR-REGION>.elasticmapreduce/libs/script-runner/script-runner.jar --arg s3://<YOUR-BUCKET>/sqoop-install/install_sqoop.sh
。
我可以看到名为SQOOP-INSTALL的EMR作业正在群集上运行,但一段时间后,作业将自动取消。我试图查看在EMR作业运行期间生成的日志,但没有错误消息。此外,生成的日志没有提供有关作业流的足够信息。
请求您帮我在EMR集群上安装SQOOP。
先谢谢。
Avinash
答案 0 :(得分:1)
经过大量的试验和错误后,我开始了解我遇到的一些问题。
以下是在VPC中运行作业时需要执行的必要步骤。
1.在作业创建中添加子网,如下所示
{./elasticmapreduce --create --submet <YOUR-SUBNETID
}
这将在emr集群上创建一个作业。
2.获取JOB ID,然后将步骤添加到创建的作业
./elastic-mapreduce -j <JOBFLOW-ID --jar s3://elasticmapreduce/libs/script-runner/script-runner.jar --arg s3://<YOURBUCKET>/install-sqoop.sh
希望这对那些面临这类问题的人有所帮助