Hadoop Mapreduce:如何将数据从mapper分区为reducer

时间:2017-07-18 08:22:32

标签: python hadoop mapreduce streaming

我在本地环境中测试了map.py和reduce.py。

输入文件如:

R55726rest149624640000014962753030007006483323902288110000NJ110112hoboken   R55726rest149636308400014964192000007063481824780452130000NY130800hoboken   R23412rest149641920000014965055650007063480924780416130000NJ130800weehawken

Map的输出如:

R55726,1496246400000,1496275303000,70064833,23902288,Hoboken
R55726,1496289016000,1496293537000,70685312,24637310,Hoboken
R12345,1496357338000,1496357862000,70634437,24780843,Jersey city
R12345,1496357921000,1496361659000,70632989,24780983,Jersey city

然后我想通过第一列对Map的输出数据进行分区。

最终输出将有两个文件:part-00000,part-00001

run.sh:

-D stream.map.output.field.separator=, \
-D stream.num.map.output.key.fields=2 \
-D map.output.key.field.separator=, \
-D num.key.fields.for.partition=1 \
-numReduceTasks 1 \

但它不起作用。 你能告诉我如何修改程序吗?非常感谢你!

1 个答案:

答案 0 :(得分:0)

来自Hadoop docs

hadoop jar hadoop-streaming-2.7.3.jar \
  -D stream.map.output.field.separator=. \
  -D stream.num.map.output.key.fields=4 \
  -D map.output.key.field.separator=. \
  -D mapreduce.partition.keypartitioner.options=-k1,2 \
  -D mapreduce.job.reduces=12 \
  -input myInputDirs \
  -output myOutputDir \
  -mapper /bin/cat \
  -reducer /bin/cat \
  -partitioner org.apache.hadoop.mapred.lib.KeyFieldBasedPartitioner

您要查找的媒体资源是mapreduce.partition.keypartitioner.options

您还需要指定分区程序。在您的情况下,其中一个默认值KeyFieldBasedPartitioner可以正常工作。