应用错误收集

是否可以使用mrjob在Hadoop中实现具有不同映射器的多个输入的选项？如果是这样，示例或任何指向文档的链接将很有帮助。

编辑： 我正在尝试实现一个类似此问题的示例：Hadoop multiple inputs。唯一的区别是我想使用MRJob库来完成此操作，因为我必须使用Python。

我每天都有数据。我将为第1天A的源在一天的水平上计算一些摘要，格式为：

电话号码，通话分钟数，事件发生的日期

导致输出B，例如：

电话号码（定界符）month_of_year total_call_minutes

第二天，我收到A的新日期时间信息。现在，我想将第1天的B和第2天的A提供给同一作业的两个不同的映射器（分别为Mapper M1和M2），以处理具有不同键/的映射器输出的不同格式。值格式。这将是第二天的B，这是第一天和第二天的累积摘要。该表格将每天继续进行。

我想知道是否可以通过MRJob或其他任何基于Hadoop的基于python的库来完成。

PS：我想我可以通过使用单个映射器来实现此目的，方法是在输入和输出中都使用一个附加字段作为源类型指示符，并相应地处理每个记录。但是我不太热衷于使用该方法。这就是为什么我一直在寻找这个选项的原因，我认为这是一种更清洁的方法。