在MapReduce中生成唯一的ID

时间:2018-12-03 21:12:33

标签: hadoop mapreduce hadoop2 hadoop-partitioning

我正在比较两个文件A和B,并从A中提取不存在于B中的列,并将其添加到B。将新记录添加到B时,应为其指定唯一的ID。我正在寻找可以从B获得总计数的逻辑,这是现在的最大id。然后将最大值传递给所有减速器。但是问题是多个减速器将并行处理。是否有一种方法可以使减速器根据B的最大值与所有其他减速器同步分配增量ID?

比较A和B的逻辑:

1。将编号“ 2”分配给A中的记录

  1. 将编号“ 1”分配给B中的记录

  2. 对减速器中的值求和。如果sum%2为0,则B中不存在记录。因此,将其添加到具有唯一ID的B中。

0 个答案:

没有答案