我正在网上搜索一个完整的代码,用于加入2个带有一些匹配键的文件,但我找不到一个好的。任何人都可以共享一个完整的工作代码来加入hadoop。
答案 0 :(得分:1)
在MapReduce Design Patterns中有一整章关于联接。如果您没有可用书籍的副本,则会在this SlideShare presentation中记录这些模式(请参阅幻灯片65)。你可以查看一些code examples on github。 (免责声明:我是这篇材料的作者)
有许多方法可以进行连接和理解哪一个选择对性能很重要。
答案 1 :(得分:-1)
同时检查Data-Intensive Text Processing with MapReduce。本文中提供了算法和伪代码,可以用任何语言实现。