我试图弄清楚如何直接从EMR地图任务写入s3存储桶。我想运行一个python流媒体工作,它将从互联网上获取一些数据并将其保存到s3 - 而不返回它以减少工作。任何人都可以帮我吗?
答案 0 :(得分:0)
为什么不直接将MR作业的输出设置为s3目录并告诉它没有reducer:
./elastic-mapreduce ..... --output s3n://bucket/outputfiles --reducer NONE
那应该做你想要的。
然后你的脚本可以做这样的事情(对不起,红宝石):
STDIN.each do |url|
puts extract_data(url)
end