我在S3 folder
中有文件,我必须使用PiG scripts
中的EMR
进行转换,然后加载回s3。
之后我在redshift
创建了从S3加载的表。
目前,我已经使用SQL工作台从s3加载文件,并且我已经从AWS GUI窗口执行了pig脚本。
我想知道如何从unix shell调用pig脚本? 除了sqlworkbench之外,我怎么能执行redshift脚本? 我怎样才能顺序运行它们?
我是否需要安装EC2 Linux才能连接到EMR? 注意:我也有一个Windows EC2实例。
答案 0 :(得分:0)
首先你需要使用EMR启动器代码,你可以使用amazon cli或amazon java SDK来做。使用此功能,您可以启动EMR作业。
您也可以使用亚马逊EMR控制台来创建群集。请选择步猪计划并为您的猪脚本提供路径S3。 在S3中输入位置的路径中指定,并将输出位置指定到s3。启动工作。
一旦Job结束,它会将输出写入s3。
一旦作业成功完成作业,启动脚本(python,shell或java代码)以触发复制命令。此脚本应连接到您的redshift集群,将处理后的S3复制到redshift表。
您可以从本地计算机连接EMR和redshift,也可以使用EC2触发EMR启动器和红移加载程序脚本。