如何在Hadoop中迭代MapReduce? (郎:python)

时间:2017-04-13 17:49:36

标签: python hadoop mapreduce hadoop-streaming

我写了一个MapReduce程序(mapper.py和reducer.py)来处理Hadoop中的PageRank问题。

我想迭代MapReduce大约10次迭代。如何将第一轮MapReduce的输出转换为第二轮MapReduce的输入?

       1                    2                           10
[mapper->reducer] -> [mapper->reducer] -> ... -> [mapper->reducer] -> final result

1 个答案:

答案 0 :(得分:0)

您可以将job1的输出链接为job2的输入。

inputdir1 - > outputdir1 - > outputdir2 ... - > outputdir9 - > outputdir10