控制HDFS复制,映射器编号和Reducers标识

时间:2018-07-10 13:54:08

标签: apache hadoop hdfs yarn

我正在尝试以分布式方式(具有3台计算机的集群)运行Apache Hadoop 2.65,并且我想确定映射器和化简器的数量。 我正在使用HDFS,复制数量为1,我的输入是3个文件(表)。 我想调整数据在系统中的流动方式,为此,我想通过以下方式获得一些帮助吗?以及如何以及在哪里可以更改它?

  1. 复制HDFS -我可以干扰HDFS复制的方式吗?例如,确保每个 文件存储在另一台计算机上?如果可以,我可以选择哪个 电脑将被存储吗?
  2. 映射器数量-我可以更改映射器或输入拆分的数量吗?我知道这取决于输入拆分的数量和块大小。它在网络上说我可以通过更改以下参数来做到这一点,但我不知道在哪里?

    • -D mapred.map.tasks = 5
    • mapred.min.split.size属性
  3. Reducers标识-如何建议或强制资源管理器在特定计算机上启动reduce容器(reduce任务)?如果可以,我可以为每台计算机选择它们的数量吗? (在整个集群中将地图的输出划分为不同的区域)。更具体地说,向ContainerLaunchContext添加另一个参数(我们具有Mem,CPU,磁盘和位置)。

1 个答案:

答案 0 :(得分:1)

HDFS复制-是否可以干扰HDFS复制的方式? 回答-是的,我们可以更改hdfs中的复制因子。只是去那里的配置文件更改。 映射器数量-我可以更改映射器或输入拆分的数量吗?

答案-我们还可以在hdfs中更改映射器的数量。