标签: hadoop mapreduce
如何使用hadoop流式传感器减少map中的分割数量减少作业。我试图修改mapreduce.input.fileinputformat.split.minsize / maxsize,但数字仍然相同。
我的工作中的分割数是85000,工作大约需要12个小时才能完成。为了减少时间,减少分割数量应该是不错的选择,因为启动容器是一个昂贵的过程。
除了增加服务器之外,还欢迎任何其他建议减少工作时间。