应用错误收集

如何使用map reduce输出作为另一个map减少作业的输入？

时间：2013-10-08 20:27:41

标签： hadoop hbase

在第一个map reduce工作中，我正在处理一个HBase表并输出一个较小的rowkeys列表。我需要使用这个字符串列表来处理另一个map reduce工作，它从不同的HBase表拉出并输出到另一个Hbase表。存储和访问第一个地图缩减作业的输出的正确方法是什么？

1 个答案:

答案 0 :(得分：0)

Hadoop不支持将一个MR作业的输出流式传输到另一个MR作业。因此，第一个MR作业的输出必须存储在HDFS（或其他一些永久存储器）中，然后在第二个MR作业中读取。使用DAG或Oozie创建Azkaban个职位。对于简单的工作流程，请使用Hadoop的JobControl API。

仍然处于孵化器阶段的

Apache Tez允许跨MR任务流式传输数据。如上所述，Tez仍处于孵化阶段，因此请谨慎使用。