我必须维护使用mrjob来运行EMR作业的AWS EMR作业。
它只有一个映射器步骤。
我的带有映射器步骤的类使用以下值初始化。
['--date', date,
'--jobconf', 'mapred.task.timeout=
{0}'.format(args.mapred_task_timeout),
'--jobconf', 'mapreduce.map.speculative=false',
'--file', utils.get_config_file(),
'-r', 'emr',
'input.txt']
已启动的EMR中的每个实例都从input.txt获取一行。这种逻辑如何工作?如果我在hadoop集群中提交相同的作业,它的工作方式是否相同?
注意:我是Hadoop的新手。我多次阅读了mrjob文档,以了解其内容,但并不清楚。