如何使用Elastic MapReduce在数百万个小型S3 xml文件上运行XSLT转换?

时间:2010-08-11 00:52:05

标签: xml amazon-s3 hadoop mapreduce xslt

更具体地说,是否有一个简单的流媒体解决方案?

1 个答案:

答案 0 :(得分:2)

请参阅此链接:How do I process files, one per map?

  • 将数据上传到S3存储桶
  • 生成包含每个文件的完整s3n://路径的文件
  • 编写一个映射器脚本:
    • 将'mapred_work_output_dir'拉出环境(*)
    • 根据文件名执行XSLT转换,保存到输出目录
  • 编写无效的身份缩减器
  • 将mapper / reducer脚本上传到S3存储桶
  • 通过AWS EMR控制台测试您的脚本

(*)Streaming将您的jobconf放在进程环境中。请参阅代码here