我有几个Hbase表。我希望在每个表上运行一个map任务(每个map都是一个不同的Mapper
类,因为每个表都包含异构数据),然后是一个reduce。
如果没有明确地将每张地图后的数据减少为临时SequenceFile
,我就无法解决这个问题。
感谢任何帮助。
答案 0 :(得分:1)
似乎你一次只能在一张桌子上运行一个MR(见TableMapReduceUtil)。所以最有可能的是,您最好的选择是您怀疑:将每个表的输出保存到临时位置(例如SequenceFile或tmp hbase表),然后编写最终的MR作业,将该位置作为输入并合并结果。此外,如果每个MR作业以通用格式输出数据,您甚至可能不需要最后的MR合并作业。