我正在尝试在Hadoop 2.7.3上使用teragen生成100GB的数据。我在每个节点上有100GB的磁盘,50GB的HDFS和另外50GB的hadoop临时目录。
我的问题是terasort reducer耗尽磁盘空间并崩溃。我知道reducer需要100GB的本地磁盘才能在排序之前收集所有数据。
我的问题是,我可以以某种方式配置hadoop在具有更高磁盘存储的特定节点上运行reducer吗?如果没有,那我该如何解决这个问题?
我有大约50个节点,每个节点有100GB存储空间。还有一些存储空间更大。
由于