应用错误收集

与Hadoop MapReduce的成对比较

时间：2012-08-09 08:22:27

标签： java hadoop mapreduce amazon-emr

我有一个大文本文件（5 GB），每行一个字符串。我需要使用专有算法将每一行与每一行进行比较。我是MapReduce的新手，但有Java经验。给我带来麻烦的问题是创建单独的地图输入。文档似乎是在假设每行不依赖于任何其他行的情况下编写的。这样做的最佳方法是什么？

1 个答案:

答案 0 :(得分：0)

以下是一些关于与Hadoop建立联接的有趣论文：

http://www.inf.ed.ac.uk/publications/thesis/online/IM100859.pdf http://www.inf.ed.ac.uk/publications/thesis/online/IM090720.pdf http://pages.cs.wisc.edu/~jignesh/publ/hadoopjoin.pdf

我认为您还应该研究Hadoop mapred连接框架：

http://hadoop.apache.org/common/docs/r0.20.0/api/org/apache/hadoop/mapred/join/package-summary.html