我正在尝试以分布式方式(具有3台计算机的集群)运行Apache Hadoop 2.65,并且我想确定映射器和化简器的数量。 我正在使用HDFS,复制数量为1,我的输入是3个文件(表)。 我想调整数据在系统中的流动方式,为此,我想通过以下方式获得一些帮助吗?以及如何以及在哪里可以更改它?
映射器数量-我可以更改映射器或输入拆分的数量吗?我知道这取决于输入拆分的数量和块大小。它在网络上说我可以通过更改以下参数来做到这一点,但我不知道在哪里?
Reducers标识-如何建议或强制资源管理器在特定计算机上启动reduce容器(reduce任务)?如果可以,我可以为每台计算机选择它们的数量吗? (在整个集群中将地图的输出划分为不同的区域)。更具体地说,向ContainerLaunchContext添加另一个参数(我们具有Mem,CPU,磁盘和位置)。
答案 0 :(得分:1)
HDFS复制-是否可以干扰HDFS复制的方式? 回答-是的,我们可以更改hdfs中的复制因子。只是去那里的配置文件更改。 映射器数量-我可以更改映射器或输入拆分的数量吗?
答案-我们还可以在hdfs中更改映射器的数量。