我正在尝试使用CompositeInputFormat类通过hadoop实现地图侧连接。为此,我需要满足以下条件:
必须对每个地图的输入进行分区并在a中排序 具体方式。每个输入数据集必须分成相同的数字 分区,必须使用相同的密钥(连接密钥)进行排序 每个来源。私钥的所有记录必须位于 相同的分区和哪个是强制性的。
我需要创建一个mapreduce作业并执行它,只是为了满足这个要求?我需要创建一个“身份映射器和减速器”才能执行此操作吗?或者还有其他方式使用HIVE或PIG吗?
由于
答案 0 :(得分:1)
使用Identity Mapper / Reducer就足够了,假设您为两个输入的预处理设置了相同的Reducer数。默认情况下,它将使用HashPartiioner和WritableComparator对输入进行排序和处理。