使用CombineHiveInputFormat为每个映射器生成多个输出文件

时间:2019-01-08 07:13:38

标签: hadoop hive hadoop2

我们有一个用例,其中我们仅对约600个零件文件运行地图作业,进行一些增强,并在不同的目标位置生成600个名称和结构相同的对应输出零件文件。当前,我们正在使用HiveInputFormat,它可以生成600个Mapper,每个零件文件1个Mapper,并可以生成600个相应的输出零件文件,足以满足我们的要求。

  1. 由于这些文件的大小相对较小,是否可以根据我的需要使用CombineHiveInputFormat并使用较少的映射器来生成与输入文件相同结构的600个输出文件?
  2. CombinHiveInputFormat的getSplits()会拆分单个零件文件吗?即,一个分割完全由2个零件文件中的块组成,而与第三零件文件中的几个块组成?如果是这样,可以避免吗?

我是hadoop的新手,非常感谢您的帮助。

0 个答案:

没有答案