Hadoop:有可能将几个Map-Side连接在一起,似乎不是吗?

时间:2012-06-02 04:20:36

标签: join hadoop mapreduce chain

是否可以链接多个Map-side join togther?对我来说这是不可能的,因为我们不能仅使用map对值进行排序(而在reduce中我们可以使用二级排序)。因此,不可能为下一次加入提供排序值结果。是否有任何解决方案来排序地图侧连接结果值?或者链接多个地图侧连接的任何解决方案?现在我可以考虑使用map-reduce作业来对值进行排序....

非常感谢。

2 个答案:

答案 0 :(得分:0)

如果您正在使用旧的api(mapred包),请查看CompositeInputFormat。还有来自Roberto Congiu的博客文章更详细地解释了如何使用它:

这确实要求您的数据集已预先排序且可能已分区

答案 1 :(得分:0)

你可能想看一下雅虎的Oozie框架:

  1. http://incubator.apache.org/oozie/
  2. https://github.com/yahoo/oozie