我是Amazon EMR和Hadoop的新手。我目前正在尝试在EMR集群上设置Pig作业,并从S3导入和导出数据。我在s3中设置了一个名为“datastackexchange”的数据桶。为了开始将数据复制到Pig,我使用了以下命令:
ls s3://datastackexchange
我收到以下错误消息:
AWS Access Key ID and Secret Access Key must be specified as the username or password (respectively) of a s3 URL, or by setting the fs.s3.awsAccessKeyId or fs.s3.awsSecretAccessKey properties (respectively).
我认为我错过了一些关键步骤(可能涉及设置访问密钥)。由于我是EMR的新手,有人可以解释一下我需要做些什么才能摆脱这个错误并允许我在EMR中使用我的S3数据吗?
非常感谢任何帮助 - 谢谢。
答案 0 :(得分:0)
正如您所正确观察到的,您的EMR实例没有访问S3数据的权限。有许多方法可以指定AWS凭据来访问您的S3数据,但正确的方法是创建用于访问S3数据的IAM角色。
Configure IAM Roles for Amazon EMR解释了所涉及的步骤。