使用CompositeInputFormat

时间:2014-07-30 21:00:37

标签: hadoop mapreduce hive apache-pig

我正在尝试使用CompositeInputFormat类通过hadoop实现地图侧连接。为此,我需要满足以下条件:

  

必须对每个地图的输入进行分区并在a中排序   具体方式。每个输入数据集必须分成相同的数字   分区,必须使用相同的密钥(连接密钥)进行排序   每个来源。私钥的所有记录必须位于   相同的分区和哪个是强制性的。

我需要创建一个mapreduce作业并执行它,只是为了满足这个要求?我需要创建一个“身份映射器和减速器”才能执行此操作吗?或者还有其他方式使用HIVE或PIG吗?

由于

1 个答案:

答案 0 :(得分:1)

使用Identity Mapper / Reducer就足够了,假设您为两个输入的预处理设置了相同的Reducer数。默认情况下,它将使用HashPartiioner和WritableComparator对输入进行排序和处理。