如何使用map reduce输出作为另一个map减少作业的输入?

时间:2013-10-08 20:27:41

标签: hadoop hbase

在第一个map reduce工作中,我正在处理一个HBase表并输出一个较小的rowkeys列表。我需要使用这个字符串列表来处理另一个map reduce工作,它从不同的HBase表拉出并输出到另一个Hbase表。存储和访问第一个地图缩减作业的输出的正确方法是什么?

1 个答案:

答案 0 :(得分:0)

Hadoop不支持将一个MR作业的输出流式传输到另一个MR作业。因此,第一个MR作业的输出必须存储在HDFS(或其他一些永久存储器)中,然后在第二个MR作业中读取。使用DAGOozie创建Azkaban个职位。对于简单的工作流程,请使用Hadoop的JobControl API。

仍然处于孵化器阶段的

Apache Tez允许跨MR任务流式传输数据。如上所述,Tez仍处于孵化阶段,因此请谨慎使用。