是否可以链接多个Map-side join togther?对我来说这是不可能的,因为我们不能仅使用map对值进行排序(而在reduce中我们可以使用二级排序)。因此,不可能为下一次加入提供排序值结果。是否有任何解决方案来排序地图侧连接结果值?或者链接多个地图侧连接的任何解决方案?现在我可以考虑使用map-reduce作业来对值进行排序....
非常感谢。
答案 0 :(得分:0)
如果您正在使用旧的api(mapred包),请查看CompositeInputFormat。还有来自Roberto Congiu的博客文章更详细地解释了如何使用它:
这确实要求您的数据集已预先排序且可能已分区
答案 1 :(得分:0)
你可能想看一下雅虎的Oozie框架: