使用MRJob

时间:2018-10-05 22:47:19

标签: hadoop mapreduce mrjob multiple-input

是否可以使用mrjobHadoop中实现具有不同映射器的多个输入的选项?如果是这样,示例或任何指向文档的链接将很有帮助。

编辑: 我正在尝试实现一个类似此问题的示例:Hadoop multiple inputs。唯一的区别是我想使用MRJob库来完成此操作,因为我必须使用Python

我每天都有数据。我将为第1天A的源在一天的水平上计算一些摘要,格式为:

  

电话号码,通话分钟数,事件发生的日期

导致输出B,例如:

  

电话号码(定界符)month_of_year total_call_minutes

第二天,我收到A的新日期时间信息。现在,我想将第1天的B和第2天的A提供给同一作业的两个不同的映射器(分别为Mapper M1和M2),以处理具有不同键/的映射器输出的不同格式。值格式。这将是第二天的B,这是第一天和第二天的累积摘要。该表格将每天继续进行。

我想知道是否可以通过MRJob或其他任何基于Hadoop的基于python的库来完成。

PS:我想我可以通过使用单个映射器来实现此目的,方法是在输入和输出中都使用一个附加字段作为源类型指示符,并相应地处理每个记录。但是我不太热衷于使用该方法。这就是为什么我一直在寻找这个选项的原因,我认为这是一种更清洁的方法。

0 个答案:

没有答案