我是Hadoop和Mapreduce的新手。我需要使用mapreduce比较两个excel文件。我必须去mapreduce,因为这些文件的大小将非常大(> 10gb)。我的问题是如何从不同的映射器中获取两个不同的输入文件,并在Reducer中比较这两个文件。我必须将此应用程序转换为jar并在Amazon EMR中运行它。我无法在Web中找到合适的教程。请为我提供一些想法。
答案 0 :(得分:0)
我认为分布式缓存在您的情况下会很有用。我还没有使用大型文件的分布式缓存,但请浏览并告诉我它是否适合您。
答案 1 :(得分:0)
根据您对我的评论的回答,如果您使用普通的Map-reduce实现它,我认为应该怎么做?
如果你看一下抽象普通map-reduce的Apache Pig或Cascading类API,可能会有所帮助。
此致 阿米特