我写了一个MapReduce程序(mapper.py和reducer.py)来处理Hadoop中的PageRank问题。
我想迭代MapReduce大约10次迭代。如何将第一轮MapReduce的输出转换为第二轮MapReduce的输入?
1 2 10
[mapper->reducer] -> [mapper->reducer] -> ... -> [mapper->reducer] -> final result
答案 0 :(得分:0)
您可以将job1的输出链接为job2的输入。
inputdir1 - > outputdir1 - > outputdir2 ... - > outputdir9 - > outputdir10