我有一个大文本文件(5 GB),每行一个字符串。我需要使用专有算法将每一行与每一行进行比较。我是MapReduce的新手,但有Java经验。给我带来麻烦的问题是创建单独的地图输入。文档似乎是在假设每行不依赖于任何其他行的情况下编写的。这样做的最佳方法是什么?
答案 0 :(得分:0)
以下是一些关于与Hadoop建立联接的有趣论文:
http://www.inf.ed.ac.uk/publications/thesis/online/IM100859.pdf http://www.inf.ed.ac.uk/publications/thesis/online/IM090720.pdf http://pages.cs.wisc.edu/~jignesh/publ/hadoopjoin.pdf
我认为您还应该研究Hadoop mapred连接框架:
http://hadoop.apache.org/common/docs/r0.20.0/api/org/apache/hadoop/mapred/join/package-summary.html