hadoop环境中的mrjob输入处理

时间:2018-12-14 06:29:15

标签: hadoop hadoop-streaming mrjob

我必须维护使用mrjob来运行EMR作业的AWS EMR作业。

它只有一个映射器步骤。

我的带有映射器步骤的类使用以下值初始化。

['--date', date,
'--jobconf', 'mapred.task.timeout=        
{0}'.format(args.mapred_task_timeout),
'--jobconf', 'mapreduce.map.speculative=false',
'--file', utils.get_config_file(),
'-r', 'emr',
'input.txt']

已启动的EMR中的每个实例都从input.txt获取一行。这种逻辑如何工作?如果我在hadoop集群中提交相同的作业,它的工作方式是否相同?

注意:我是Hadoop的新手。我多次阅读了mrjob文档,以了解其内容,但并不清楚。

0 个答案:

没有答案