我是mapreduce程序的新手。我正在关注Tom white Hadoop权威指南。我正在做天气数据程序,我想找到每年的最高温度。我有4个文件1901,1902,1904,1905,每年一个文件(我每年制作一个文件)。
如何在mapreduce maper程序中设置四个输入文件。 Hadoop以伪分布式模式安装。 请帮帮我。
答案 0 :(得分:1)
如果您使用hadoop streaming
,请尝试以下操作:
$HADOOP_HOME/bin/hadoop jar $HADOOP_HOME/hadoop-streaming.jar \
-input myInputDirs \
-output myOutputDir \
-mapper mapper \
-reducer reducer
将您的文件放入输入目录可以解决您的问题。
答案 1 :(得分:0)
hadoop从输入目录中选择所有文件。因此,如果您将所有文件放入输入目录,则将选择所有文件。您可以在驱动程序类中设置多个输入路径,如下所示。
FileInputFormat.setInputPaths(job,commaSeparatedPaths);