应用错误收集

我必须维护使用mrjob来运行EMR作业的AWS EMR作业。

它只有一个映射器步骤。

我的带有映射器步骤的类使用以下值初始化。

['--date', date,
'--jobconf', 'mapred.task.timeout=        
{0}'.format(args.mapred_task_timeout),
'--jobconf', 'mapreduce.map.speculative=false',
'--file', utils.get_config_file(),
'-r', 'emr',
'input.txt']

已启动的EMR中的每个实例都从input.txt获取一行。这种逻辑如何工作？如果我在hadoop集群中提交相同的作业，它的工作方式是否相同？

注意：我是Hadoop的新手。我多次阅读了mrjob文档，以了解其内容，但并不清楚。

hadoop环境中的mrjob输入处理

0 个答案: