EMR输出到S3

时间:2017-05-17 12:59:39

标签: python amazon-s3 emr

我在EMR On-Demand服务器上运行Python脚本(没有命名EMR集群)。它工作正常,输入和输入输出为我的本地系统。我想使用S3 bucket作为我的输入和输入输出。请参阅下面的命令。 它需要S3桶的输入。但只显示输出到我的本地系统,而不是S3。你能帮我吗?

$ python WordFrequency.py -r emr --region us-east-1 s3://mybucket/Input/Book.txt s3://mybucket/Output

此致 莫汉

1 个答案:

答案 0 :(得分:0)

只需将此放在这里以防其他人需要它。我在查询中看到了两件事:

  1. 网址应该是' s3a',而不是' s3',正如here所述
  2. 添加到存储桶中的文件夹时,需要关闭文件夹地址。 ' S3:// mybucket /输出'需要是' s3a:// mybucket / Output /'
  3. 可能出错的第三件事是你的emr / client用户首先没有访问存储桶的权限。确保EMR /客户端用户的IAM设置为该用户提供对S3 put和reads的访问权限,并且您正在写入的存储桶具有正确的权限。