Question

在Hadoop MapReduce中，中间输出（地图输出）保存在本地磁盘中。我想知道是否可以通过reduce阶段启动一个作业，从本地磁盘读取mapoutput，分区数据并执行reduce任务？

Answer 1

有一个名为IdentityMapper的Mapper的基本实现，它基本上将所有键值对传递给Reducer。

你不能在没有任何地图制作者的情况下只运行Reducer ..

Answer 2

Map reduce适用于HDFS中的数据。所以我不认为你可以写reducer only map reduce来从本地磁盘读取

Answer 3

如果您使用Hadoop Streaming，则只需添加：

-mapper "/bin/sh -c \"cat\""