我正在编写一个外部脚本,通过笔记本电脑上的Python mrjob模块运行mapreduce作业(不是在Amazon Elastic Compute Cloud或任何大型集群上)。
我从mrjob documentation读到我应该使用MRJob.make_runner()
从单独的python脚本运行mapreduce作业,如下所示。
mr_job = MRYourJob(args=['-r', 'emr'])
with mr_job.make_runner() as runner:
...
但是,如何指定要使用的输入文件?我想在我的mapreduce脚本和运行map reduce的其他python脚本所在的目录中使用文件“datalines.txt”。此外,如何指定输出?
我在mrjob文档中找不到允许我指定这些参数的函数。
答案 0 :(得分:5)
Getting started guide建议从stdin或命令行提供的文件中读取输入:
mr_job = MRYourJob(args=["datalines.txt"])