我曾在cloudera Box工作过,我把所有脚本放在边缘节点上。我是新手中的EMR,所以我需要你的建议。
我做了什么。
1.我已使用putty通过ssh登录主节点。 2.创建了我放置所有脚本的文件夹。
我已经阅读了一些将脚本放在s3中的文章。但我可以知道这种方法有什么问题,我已经提到了。
我是否需要站起来使用ec2 linux,我可以在这里放置这些脚本并从ec2框中调用emr作业。
需要你的观点。
Sanjeeb
答案 0 :(得分:0)
您采取的方法是正确的。我们在EMR主节点和S3上都有脚本。在S3上使用S3的优点是,如果EMR崩溃,则在S3上有脚本。此外,如果您从多个EMR执行,在S3上使用脚本可以更容易地从S3本身调用它,而不是复制到每个EMR实例。
您可以使用sh -c'pig -f ..'
从S3调用pig脚本没有必要让额外的ec2运行来调用作业。
你如何称呼你的emr工作?