在小节点上构建hadoop集群

时间:2015-10-11 11:36:32

标签: hadoop

我在四个非常小的虚拟服务器(2GB RAM,每个2Cores)上准备hadoop集群,以进行概念验证。 一台服务器作为名称节点和资源管理器,三台是数据节点。

每次我运行测试作业(带有数据的3,4 GB文件)时 - 两个数据节点(随机数据)正在以最大功能工作,其中一个正在休眠(通过htop监控)。 所有3个数据节点在hadoop GUI中都可见。 我错过了什么?

非常感谢任何帮助。

纱-site.xml中

<configuration>
<!-- Site specific YARN configuration properties -->
<property>
    <name>yarn.resourcemanager.resource-tracker.address</name>
    <value>hadoop-master:8031</value>
</property>
<property>
    <name>yarn.resourcemanager.address</name>
    <value>hadoop-master:8032</value>
</property>
<property>
    <name>yarn.resourcemanager.scheduler.address</name>
    <value>hadoop-master:8030</value>
</property>
<property>
    <name>yarn.resourcemanager.admin.address</name>
    <value>hadoop-master:8033</value>
</property>
<property>
    <name>yarn.resourcemanager.webapp.address</name>
    <value>hadoop-master:8088</value>
</property>
<property>
    <name>yarn.nodemanager.resource.memory-mb</name>
    <value>2048</value>
</property>
<property>
    <name>yarn.nodemanager.aux-services</name>
    <value>mapreduce_shuffle</value>
</property>
<property>
    <name>yarn.nodemanager.aux-services.mapreduce_shuffle.class</name>
    <value>org.apache.hadoop.mapred.ShuffleHandler</value>
</property>
</configuration>

HDFS-site.xml中

<configuration>
<property>
    <name>dfs.data.dir</name>
    <value>/opt/hadoop/hadoop/dfs/data</value>
    <final>true</final>
</property>
<property>
    <name>dfs.name.dir</name>
    <value>/opt/hadoop/hadoop/dfs/name</value>
    <final>true</final>
</property>
<property>
    <name>dfs.replication</name>
    <value>3</value>
</property>
<property>
    <name>dfs.permissions</name>
    <value>false</value>
</property>
<property>
    <name>dfs.blocksize</name>
    <value>67108864</value>
</property>

1 个答案:

答案 0 :(得分:0)

我找到了解决方案 为了增加文件mapred-site.xml中的reducer数量,我添加了

<property>
    <name>A</name>
    <value>5</value>
</property> 

在我向集群添加其他节点后,hadoop增加了映射器,而配置中没有任何其他更改。现在所有数据节点都以最大功能运行。