mapreduce

时间:2015-08-07 05:17:18

标签: hadoop mapreduce

我是mapreduce程序的新手。我正在关注Tom white Hadoop权威指南。我正在做天气数据程序,我想找到每年的最高温度。我有4个文件1901,1902,1904,1905,每年一个文件(我每年制作一个文件)。

如何在mapreduce maper程序中设置四个输入文件。 Hadoop以伪分布式模式安装。 请帮帮我。

2 个答案:

答案 0 :(得分:1)

如果您使用hadoop streaming,请尝试以下操作:

$HADOOP_HOME/bin/hadoop  jar $HADOOP_HOME/hadoop-streaming.jar \
-input myInputDirs \
-output myOutputDir \
-mapper mapper \
-reducer reducer

将您的文件放入输入目录可以解决您的问题。

Full documents

答案 1 :(得分:0)

hadoop从输入目录中选择所有文件。因此,如果您将所有文件放入输入目录,则将选择所有文件。您可以在驱动程序类中设置多个输入路径,如下所示。

FileInputFormat.setInputPaths(job,commaSeparatedPaths);