我只是好奇为什么当块大小为128 MB时,hadoop map溢出大小为io.sort.mb为100 MB(默认值)。设置它等于块大小是否更有意义,因为地图任务无论如何都要处理那么多数据?当然我知道在这里分配更多内存可能存在问题,但还有什么内容吗?
答案 0 :(得分:1)
io.sort.mb是对内存中的文件进行排序所需的缓冲区内存总量。 作为理想的经验法则,它应始终设置为不超过总RAM的70%。 块大小基本上是关于在磁盘中设置文件块大小。您可以很好地将输入拆分与HDFS块大小相关联。
看看这篇文章以获得更好的主意