Hadoop MapReduce通过多个输入

时间:2014-01-23 20:35:36

标签: java hadoop mapreduce elasticsearch

我想在一个Job中使用多种输入格式。我使用过org.apache.hadoop.mapreduce.lib.input.MultipleInputs但是这个实用程序似乎只适用于HDFS上存在的输入(有路径)。

有没有办法使用来自不同来源的多种输入格式?

我的具体需求如下......

我希望有一个作业从现有的弹性搜索索引(利用https://github.com/elasticsearch/elasticsearch-hadoop提供的ESInputFormat)执行减少一边的连接,其中包含一组包含要编制索引的信息的序列文件。我想从这些多个输入中读取合并到reduce阶段并插入另一个索引(带有一些额外的逻辑)供以后使用。

建议?

1 个答案:

答案 0 :(得分:0)

您仍然可以使用MultipleInputs并传入非空路径。它不需要指向有效的位置仍然可以工作,它只是不能为空。

我想这是可以的。