我正在尝试使用三个步骤实现mapreduce作业,并且在每个步骤之后我需要来自所有步骤的数据到目前为止。有没有人有关于如何在mrjob中将mapper或redurs的结果保存到磁盘的示例/想法?
答案 0 :(得分:1)
您可以将多个输入传递到作业中,只需将上一个作业的输出作为输入即可。
当您说要将结果保存到磁盘时,听起来您依赖于输出回流到stdout?这种行为只是一种便利(并且可以关闭),MRJob的一切都会从磁盘上反弹。
对于两阶段工作,你可以这样做:
job1 = firstMR(['-r', mode, inputDir, '-o', outputDir, '--no-output'])
job1.set_up_logging()
with job1.make_runner() as runner1:
runner1.run()
firstOutput = runner1.get_output_dir()
job2 = secondMR(['-r', mode, firstOutput, anyOtherInput, '-o', finalOutputDir, '--no-output'])
job2.set_up_logging()
with job2.make_runner() as runner2:
runner2.run()
要注意的事项:
如果你遇到任何障碍,请告诉我,它应该相对简单。