如何同时对大量文件运行mapreduce程序?

时间:2017-11-11 16:57:23

标签: hadoop mapreduce

我正在处理大型数据集并在其上运行Mapreduce程序。我可以轻松地在单个文件上运行Mapreduce,其大小约为3 GB。知道我想在所有文件上运行mapreduce。是否有任何快捷方式或技术可以直接在所有文件上运行mapreduce。 使用OS-Ubuntu Hadoop的2.7.1

1 个答案:

答案 0 :(得分:1)

如果您有所有可用文件,请在map-reduce输入参数中指定目录/正则表达式来代替文件名。

示例: bin / hadoop jar wc.jar WordCount / user / joe / wordcount / * .txt / user / joe / wordcount / output

如果您持续获取文件并希望在到达时进行处理。 你必须一次又一次地运行map-reduce作业。因为这是批量工作。