应用错误收集

我对hadoop还是很陌生，我需要在建模地图简化工作方面获得帮助。

我有两组文件：GroupA和GroupB。两组文件的结构相同：键，每行中的值。组A和B具有相同的键集。但是，两组中的值具有不同的属性。文件足够大，因此有hadoop选项。

任务是将每个密钥的A组和B组的属性合并为该密钥的第三个属性，然后对所有密钥的第三个属性求和。

现在，乍看之下似乎是：Map->从两个组文件中收集键-值对Combine-partition-sort-shuffle->将相同键的项归为同一分区，因此它们属于同一分区reducer（由hadoop内部处理）reduce->将相同的键值组合到第三个属性中，并将其批处理写入输出文件中。

我不确定如何为在键之间添加第三个属性的第三步建模。我能想到的一种方法是在此文件之后执行另一个map-red作业，该作业可以获取此文件并将它们通过一个reducer组合成结果。这是正确的建模方式吗？还有其他方法可以对此建模吗？像这样的路线是否有连续的减速器-贴图->红色->红色？