标签: hadoop mapreduce hadoop2 hadoop-partitioning
我正在比较两个文件A和B,并从A中提取不存在于B中的列,并将其添加到B。将新记录添加到B时,应为其指定唯一的ID。我正在寻找可以从B获得总计数的逻辑,这是现在的最大id。然后将最大值传递给所有减速器。但是问题是多个减速器将并行处理。是否有一种方法可以使减速器根据B的最大值与所有其他减速器同步分配增量ID?
比较A和B的逻辑:
1。将编号“ 2”分配给A中的记录
将编号“ 1”分配给B中的记录
对减速器中的值求和。如果sum%2为0,则B中不存在记录。因此,将其添加到具有唯一ID的B中。