对照中间体导致hadoop

时间:2014-06-27 12:21:39

标签: hadoop mapreduce hadoop-streaming hadoop-partitioning hadoop2

我想用hadoop控制Map和Reduce之间的中间结果。 我想指定Map之后复制这些结果的位置。 我会选择将减少的数据。 总而言之,我希望在进程混乱和排序之前映射结果并执行操作 我想要。 如果你有解决方案,请告诉我。

谢谢

1 个答案:

答案 0 :(得分:0)

您可以在特定映射器获取InputSplit后处理数据。将逻辑指定为map函数。

  1.   

    我想指定在Map

    之后复制这些结果的位置

    使用Context Java类和FileSystem来刷新FS上的结果 (本地,hdfs,ftp,...)

  2.   

    我会选择将减少的数据

         

    我希望在进程混乱和排序之前使用地图的结果并执行我的操作   想

    map

  3. 中的Mapper函数上指定逻辑