标签: merge mapreduce
我有一个包含>的大文件1000万行。我想使用MapReduce获得重复的行。 我怎么解决这个问题? 谢谢你的帮助
答案 0 :(得分:4)
您需要利用MapReduce的默认行为是基于公共密钥对值进行分组这一事实。
所以需要的基本步骤是: