任何人都可以通过Map-Reduce操作帮助我配置工作流程,该操作采用多个输入路径,每个输入路径与一个Mapper关联,就像MultipleInputs.addInputPath api接受输入路径和映射器一样。这些映射器的输出将被提供给reducer。
我尝试使用java操作,但它只执行一个map任务。但是这里输入路径包含大量数据,因此在这种情况下我们不会使用java动作。
处理此案件有什么办法吗?
此致 Krish。
答案 0 :(得分:1)
在工作流程中,您可以在mapred.input.dir
中以逗号分隔的输入目录列表。这将使这些目录中的文件在不同的映射器上运行。