如何在Amazon EMR / S3中查看输出?

时间:2012-04-25 13:00:42

标签: amazon-s3 hive amazon-emr

我是Amazon Services的新手,并尝试在Amazon EMR中运行该应用程序。

为此我遵循以下步骤:

1)创建了包含 - >的Hive Scripts。使用某个文件创建表,在Hive中加载数据语句,然后从命令中选择*。

2)创建了S3 Bucket。我将对象加载到其中:Hive Script,File to load into the table。

3)然后创建工作流程(使用示例配置单元程序)。给定输入,输出和脚本路径(如s3n://bucketname/script.q,s3n://bucketname/input.txt,s3n:// bucketname / out /)。没有创建出目录。我认为它会自动创建。

4)然后工作流程开始运行,一段时间后我看到状态为STARTING,BOOTSTRAPING,RUNNING和SHUT DOWN。

5)当运行SHUT DOWN状态时,它会自动终止,显示SHUT DOWN的FAILES状态。

然后在S3上,我没有看到out目录。怎么看输出?我看到目录如守护进程,节点等......

还有如何在Amazon EMR中查看HDFS中的数据?

1 个答案:

答案 0 :(得分:2)

您在步骤3中指定的输出路径应包含结果(根据您的描述,它是s3n:// bucketname / out /)

如果没有,您的Hive脚本出现问题。如果您的Hive作业失败,您将在jobtracker日志中找到有关失败/异常的信息。 jobtracker日志存在于<s3 log location>/daemons/<master instance name>/hadoop-hadoop-jobtracker-<some Amazon internal IP>.log

日志目录中只有一个文件具有上述格式的S3密钥。此文件将包含可能发生的任何异常。您可能希望专注于文件的底端。