应用错误收集

使用CompositeInputFormat

时间：2014-07-30 21:00:37

标签： hadoop mapreduce hive apache-pig

我正在尝试使用CompositeInputFormat类通过hadoop实现地图侧连接。为此，我需要满足以下条件：

必须对每个地图的输入进行分区并在a中排序具体方式。每个输入数据集必须分成相同的数字分区，必须使用相同的密钥（连接密钥）进行排序每个来源。私钥的所有记录必须位于相同的分区和哪个是强制性的。

我需要创建一个mapreduce作业并执行它，只是为了满足这个要求？我需要创建一个“身份映射器和减速器”才能执行此操作吗？或者还有其他方式使用HIVE或PIG吗？

由于

1 个答案:

答案 0 :(得分：1)

使用Identity Mapper / Reducer就足够了，假设您为两个输入的预处理设置了相同的Reducer数。默认情况下，它将使用HashPartiioner和WritableComparator对输入进行排序和处理。