直接从EMR map / reduce任务访问S3

时间:2012-02-13 15:11:07

标签: amazon-s3 amazon-ec2 amazon-web-services amazon-emr

我试图弄清楚如何直接从EMR地图任务写入s3存储桶。我想运行一个python流媒体工作,它将从互联网上获取一些数据并将其保存到s3 - 而不返回它以减少工作。任何人都可以帮我吗?

1 个答案:

答案 0 :(得分:0)

为什么不直接将MR作业的输出设置为s3目录并告诉它没有reducer:

./elastic-mapreduce ..... --output s3n://bucket/outputfiles --reducer NONE

那应该做你想要的。

然后你的脚本可以做这样的事情(对不起,红宝石):

STDIN.each do |url|
  puts extract_data(url)
end