我正在处理大型数据集并在其上运行Mapreduce程序。我可以轻松地在单个文件上运行Mapreduce,其大小约为3 GB。知道我想在所有文件上运行mapreduce。是否有任何快捷方式或技术可以直接在所有文件上运行mapreduce。 使用OS-Ubuntu Hadoop的2.7.1
答案 0 :(得分:1)
如果您有所有可用文件,请在map-reduce输入参数中指定目录/正则表达式来代替文件名。
示例:强> bin / hadoop jar wc.jar WordCount / user / joe / wordcount / * .txt / user / joe / wordcount / output
如果您持续获取文件并希望在到达时进行处理。 你必须一次又一次地运行map-reduce作业。因为这是批量工作。