多个映射后跟一个使用Hadoop和HBase进行缩减

时间:2011-03-31 14:09:27

标签: hadoop hbase

我有几个Hbase表。我希望在每个表上运行一个map任务(每个map都是一个不同的Mapper类,因为每个表都包含异构数据),然后是一个reduce。

如果没有明确地将每张地图后的数据减少为临时SequenceFile,我就无法解决这个问题。

感谢任何帮助。

1 个答案:

答案 0 :(得分:1)

似乎你一次只能在一张桌子上运行一个MR(见TableMapReduceUtil)。所以最有可能的是,您最好的选择是您怀疑:将每个表的输出保存到临时位置(例如SequenceFile或tmp hbase表),然后编写最终的MR作业,将该位置作为输入并合并结果。此外,如果每个MR作业以通用格式输出数据,您甚至可能不需要最后的MR合并作业。