这种架构在Hadoop MR中是否可行?

时间:2010-02-14 12:59:34

标签: hadoop mapreduce hbase

Hadoop MapReduce中是否可以使用以下架构?

使用分布式键值存储(HBase)。因此,除了值之外,还会有一个与值相关联的时间戳。地图&迭代执行减少任务。在每次迭代中,Map应该将在上一次迭代中添加的值接收到商店(可能是具有最新时间戳的?)。 Reduce应该包含Map的输出以及来自商店的对,其商店的密钥与reduce必须在当前迭代中处理的密钥相匹配。 reduce的输出到商店。

如果可能,应该扩展哪些类(例如:Reduce的InputFormat,run()),以便进行上述操作而不是常规操作。如果这是不可能的,有没有其他方法可以实现相同的目标?

2 个答案:

答案 0 :(得分:0)

所以你在迭代n-1中的“商店”可能是这样的:

键(时间戳|值)

a 1 | x,b 2 | x,c 3 | x,d 4 | x

在迭代中,这些对添加了: ... b 5 | x, d 6 | x

映射器会找到这2条记录,因为时间戳> 4并将其放入中间结果

reducer现在会发现,对于这两个记录,n-1商店中还有另外两个匹配的记录:     b 2 | x,     d 4 | x

因此,减少阶段的输出将是(无论顺序如何):     b 5 | x,     d 6 | x,     b 2 | x,     d 4 | x

这就是你想要的吗?

答案 1 :(得分:0)

所以,如果我真的理解你,我会像下面那样设计它: 您将使用IdentityMapper,此处不需要特殊逻辑。

我会将密钥和时间戳一起作为密钥对的关键。将您的价值留作货币对的价值:

  • HadoopKey = {key | timestamp}
  • HadoopValue = {value)

您现在必须实现自己的比较器,以便使用相同的原始键对,但不同的时间戳将被识别为具有相同的键,因此将它们组合在一起。 (GroupingComparator)

重要的是,减速器的对按时间戳排序,降序排列。 (KeyComparator)

看看

  • RawComparator类,
  • Jobconf的setOutputValueGroupingComparator()&
  • setOutputKeyComparatorClass()方法
  • 和“Hadoop - 权威指南”,第4章,第100页
  • 或者只是询问,如果您需要帮助; - )

Reducer将接收具有相同密钥的所有对 - oops,扰流板...... ,这些应该已经按时间戳排序。如果第一个 - 也是最年轻的 - 时间戳符合此迭代的条件,则会发出此reducer-call的所有键值对。 如果时间戳取消资格,则不会发出具有此密钥的对。

我认为应该这样做。