使用其他文件和EMR流媒体步骤?

时间:2013-04-25 16:32:02

标签: hadoop amazon-web-services elastic-map-reduce

我目前有一个hadoop命令,我想使用AWS SDK进行复制。

我正在使用的命令

hadoop jar /home/hadoop/contrib/streaming/hadoop-streaming.jar -input /no_dups -output /sorted -mapper mapper.py -reducer reducer.py -file mapper.py reducer.py other_file1.py other_file2.py

据我所知,StreamingStep类没有提供让Hadoop知道将需要其他文件的方法,以及mapper和reducer。

此功能是否可用?

1 个答案:

答案 0 :(得分:0)

我通过将-file选项传递给HadoopJarStepConfig并附上我需要的文件列表来解决这个问题。

请参阅this question