是否可以使用mrjob
在Hadoop
中实现具有不同映射器的多个输入的选项?如果是这样,示例或任何指向文档的链接将很有帮助。
编辑:
我正在尝试实现一个类似此问题的示例:Hadoop multiple inputs。唯一的区别是我想使用MRJob
库来完成此操作,因为我必须使用Python
。
我每天都有数据。我将为第1天A
的源在一天的水平上计算一些摘要,格式为:
电话号码,通话分钟数,事件发生的日期
导致输出B
,例如:
电话号码(定界符)month_of_year total_call_minutes
第二天,我收到A
的新日期时间信息。现在,我想将第1天的B
和第2天的A
提供给同一作业的两个不同的映射器(分别为Mapper M1和M2),以处理具有不同键/的映射器输出的不同格式。值格式。这将是第二天的B
,这是第一天和第二天的累积摘要。该表格将每天继续进行。
我想知道是否可以通过MRJob或其他任何基于Hadoop的基于python的库来完成。
PS:我想我可以通过使用单个映射器来实现此目的,方法是在输入和输出中都使用一个附加字段作为源类型指示符,并相应地处理每个记录。但是我不太热衷于使用该方法。这就是为什么我一直在寻找这个选项的原因,我认为这是一种更清洁的方法。