Hadoop Mapper Reducer需要花费很多时间

时间:2016-01-08 11:51:31

标签: hadoop mapreduce

我有一个用于小文件的MR代码,它需要7分钟才能获得15gb的单个文件。 但对于37gb的多个文件,它花费了太多时间并且在1分钟内始终显示百分比1%。 请建议我。

2 个答案:

答案 0 :(得分:0)

MapReduce从未设计用于低延迟。 MapReduce的想法是,您可以并行处理所有数据。关键的想法是通过并行来缩短时间。

以wordcount为例。可以说,您希望在50 GB上运行wordcount。在一台机器上运行它可能需要很长时间。与之并行可以说10台机器并行意味着每台机器5 GB。这是一个改进。这就是MapReduce的设计目的。

如果您正在寻找能够快速返回结果的技术,并且还要使用随机读取,请考虑使用其他技术。根据您的具体需求,有几种方法可以更好地解决您的问题。

答案 1 :(得分:0)

我错误地将自定义记录器放入代码中,因此每次MR运行时都会记录MR日志文件,这就是为什么需要时间。