如何从Python指定运行器的输入文件?

时间:2012-09-24 16:38:02

标签: python mapreduce mrjob

我正在编写一个外部脚本,通过笔记本电脑上的Python mrjob模块运行mapreduce作业(不是在Amazon Elastic Compute Cloud或任何大型集群上)。

我从mrjob documentation读到我应该使用MRJob.make_runner()从单独的python脚本运行mapreduce作业,如下所示。

mr_job = MRYourJob(args=['-r', 'emr'])
with mr_job.make_runner() as runner:
    ...

但是,如何指定要使用的输入文件?我想在我的mapreduce脚本和运行map reduce的其他python脚本所在的目录中使用文件“datalines.txt”。此外,如何指定输出?

我在mrjob文档中找不到允许我指定这些参数的函数。

1 个答案:

答案 0 :(得分:5)

Getting started guide建议从stdin或命令行提供的文件中读取输入:

mr_job = MRYourJob(args=["datalines.txt"])