应用错误收集

时间：2015-04-01 19:47:01

标签： amazon-web-services amazon-ec2 amazon-s3 emr

我在S3 folder中有文件，我必须使用PiG scripts中的EMR进行转换，然后加载回s3。

之后我在redshift创建了从S3加载的表。

目前，我已经使用SQL工作台从s3加载文件，并且我已经从AWS GUI窗口执行了pig脚本。

我想知道如何从unix shell调用pig脚本？除了sqlworkbench之外，我怎么能执行redshift脚本？我怎样才能顺序运行它们？

我是否需要安装EC2 Linux才能连接到EMR？注意：我也有一个Windows EC2实例。

答案 0 :(得分：0)

首先你需要使用EMR启动器代码，你可以使用amazon cli或amazon java SDK来做。使用此功能，您可以启动EMR作业。

您也可以使用亚马逊EMR控制台来创建群集。请选择步猪计划并为您的猪脚本提供路径S3。在S3中输入位置的路径中指定，并将输出位置指定到s3。启动工作。

一旦Job结束，它会将输出写入s3。

一旦作业成功完成作业，启动脚本（python，shell或java代码）以触发复制命令。此脚本应连接到您的redshift集群，将处理后的S3复制到redshift表。

您可以从本地计算机连接EMR和redshift，也可以使用EC2触发EMR启动器和红移加载程序脚本。