在Hadoop MapReduce中,中间输出(地图输出)保存在本地磁盘中。我想知道是否可以通过reduce阶段启动一个作业,从本地磁盘读取mapoutput,分区数据并执行reduce任务?
答案 0 :(得分:4)
有一个名为IdentityMapper的Mapper的基本实现,它基本上将所有键值对传递给Reducer。
你不能在没有任何地图制作者的情况下只运行Reducer ..
答案 1 :(得分:0)
Map reduce适用于HDFS中的数据。所以我不认为你可以写reducer only map reduce来从本地磁盘读取
答案 2 :(得分:0)
如果您使用Hadoop Streaming,则只需添加:
-mapper "/bin/sh -c \"cat\""