标签: emr mrjob
我有一个由3个步骤组成的mrjob。 第二步期望输入第一步的结果以及来自S3的更多内容。
据我所知,我总是可以通过第一步“流式传输”它,意思是发射原样,只在第二步中使用它,但我想避免这种情况。
有没有办法为mrjob中的后续步骤定义其他输入?
答案 0 :(得分:0)
您可以考虑使用持久性作业流将您的任务分成次要输入之前和之后的部分,而不是将步骤分组到单个作业中:
Re-use Amazon Elastic MapReduce instance
http://pythonhosted.org/mrjob/guides/emr-advanced.html