Hadoop地图减少工作建模

时间:2018-07-17 00:46:54

标签: apache hadoop2

我对hadoop还是很陌生,我需要在建模地图简化工作方面获得帮助。

我有两组文件:GroupA和GroupB。两组文件的结构相同:键,每行中的值。组A和B具有相同的键集。但是,两组中的值具有不同的属性。文件足够大,因此有hadoop选项。

任务是将每个密钥的A组和B组的属性合并为该密钥的第三个属性,然后对所有密钥的第三个属性求和。

现在,乍看之下似乎是:Map->从两个组文件中收集键-值对Combine-partition-sort-shuffle->将相同键的项归为同一分区,因此它们属于同一分区reducer(由hadoop内部处理)reduce->将相同的键值组合到第三个属性中,并将其批处理写入输出文件中。

我不确定如何为在键之间添加第三个属性的第三步建模。我能想到的一种方法是在此文件之后执行另一个map-red作业,该作业可以获取此文件并将它们通过一个reducer组合成结果。这是正确的建模方式吗?还有其他方法可以对此建模吗?像这样的路线是否有连续的减速器-贴图->红色->红色?

1 个答案:

答案 0 :(得分:0)

hadoop中的模型将类似于让两个map reduce模型一个接一个地触发。如果我们在hadoop上使用spark,则可以在map-reduce之后调用一个称为count的东西,以获取最终输出。