我在四个非常小的虚拟服务器(2GB RAM,每个2Cores)上准备hadoop集群,以进行概念验证。 一台服务器作为名称节点和资源管理器,三台是数据节点。
每次我运行测试作业(带有数据的3,4 GB文件)时 - 两个数据节点(随机数据)正在以最大功能工作,其中一个正在休眠(通过htop监控)。 所有3个数据节点在hadoop GUI中都可见。 我错过了什么?
非常感谢任何帮助。
纱-site.xml中
<configuration>
<!-- Site specific YARN configuration properties -->
<property>
<name>yarn.resourcemanager.resource-tracker.address</name>
<value>hadoop-master:8031</value>
</property>
<property>
<name>yarn.resourcemanager.address</name>
<value>hadoop-master:8032</value>
</property>
<property>
<name>yarn.resourcemanager.scheduler.address</name>
<value>hadoop-master:8030</value>
</property>
<property>
<name>yarn.resourcemanager.admin.address</name>
<value>hadoop-master:8033</value>
</property>
<property>
<name>yarn.resourcemanager.webapp.address</name>
<value>hadoop-master:8088</value>
</property>
<property>
<name>yarn.nodemanager.resource.memory-mb</name>
<value>2048</value>
</property>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<property>
<name>yarn.nodemanager.aux-services.mapreduce_shuffle.class</name>
<value>org.apache.hadoop.mapred.ShuffleHandler</value>
</property>
</configuration>
HDFS-site.xml中
<configuration>
<property>
<name>dfs.data.dir</name>
<value>/opt/hadoop/hadoop/dfs/data</value>
<final>true</final>
</property>
<property>
<name>dfs.name.dir</name>
<value>/opt/hadoop/hadoop/dfs/name</value>
<final>true</final>
</property>
<property>
<name>dfs.replication</name>
<value>3</value>
</property>
<property>
<name>dfs.permissions</name>
<value>false</value>
</property>
<property>
<name>dfs.blocksize</name>
<value>67108864</value>
</property>
答案 0 :(得分:0)
我找到了解决方案 为了增加文件mapred-site.xml中的reducer数量,我添加了
<property>
<name>A</name>
<value>5</value>
</property>
在我向集群添加其他节点后,hadoop增加了映射器,而配置中没有任何其他更改。现在所有数据节点都以最大功能运行。