在第一个map reduce工作中,我正在处理一个HBase表并输出一个较小的rowkeys列表。我需要使用这个字符串列表来处理另一个map reduce工作,它从不同的HBase表拉出并输出到另一个Hbase表。存储和访问第一个地图缩减作业的输出的正确方法是什么?
答案 0 :(得分:0)
Hadoop不支持将一个MR作业的输出流式传输到另一个MR作业。因此,第一个MR作业的输出必须存储在HDFS(或其他一些永久存储器)中,然后在第二个MR作业中读取。使用DAG或Oozie创建Azkaban个职位。对于简单的工作流程,请使用Hadoop的JobControl API。
仍然处于孵化器阶段的Apache Tez允许跨MR任务流式传输数据。如上所述,Tez仍处于孵化阶段,因此请谨慎使用。