Question

我在四个非常小的虚拟服务器（2GB RAM，每个2Cores）上准备hadoop集群，以进行概念验证。一台服务器作为名称节点和资源管理器，三台是数据节点。

每次我运行测试作业（带有数据的3,4 GB文件）时 - 两个数据节点（随机数据）正在以最大功能工作，其中一个正在休眠（通过htop监控）。所有3个数据节点在hadoop GUI中都可见。我错过了什么？

非常感谢任何帮助。

纱-site.xml中

<configuration>
<!-- Site specific YARN configuration properties -->
<property>
    <name>yarn.resourcemanager.resource-tracker.address</name>
    <value>hadoop-master:8031</value>
</property>
<property>
    <name>yarn.resourcemanager.address</name>
    <value>hadoop-master:8032</value>
</property>
<property>
    <name>yarn.resourcemanager.scheduler.address</name>
    <value>hadoop-master:8030</value>
</property>
<property>
    <name>yarn.resourcemanager.admin.address</name>
    <value>hadoop-master:8033</value>
</property>
<property>
    <name>yarn.resourcemanager.webapp.address</name>
    <value>hadoop-master:8088</value>
</property>
<property>
    <name>yarn.nodemanager.resource.memory-mb</name>
    <value>2048</value>
</property>
<property>
    <name>yarn.nodemanager.aux-services</name>
    <value>mapreduce_shuffle</value>
</property>
<property>
    <name>yarn.nodemanager.aux-services.mapreduce_shuffle.class</name>
    <value>org.apache.hadoop.mapred.ShuffleHandler</value>
</property>
</configuration>

HDFS-site.xml中

<configuration>
<property>
    <name>dfs.data.dir</name>
    <value>/opt/hadoop/hadoop/dfs/data</value>
    <final>true</final>
</property>
<property>
    <name>dfs.name.dir</name>
    <value>/opt/hadoop/hadoop/dfs/name</value>
    <final>true</final>
</property>
<property>
    <name>dfs.replication</name>
    <value>3</value>
</property>
<property>
    <name>dfs.permissions</name>
    <value>false</value>
</property>
<property>
    <name>dfs.blocksize</name>
    <value>67108864</value>
</property>

Answer 1

我找到了解决方案为了增加文件mapred-site.xml中的reducer数量，我添加了

<property>
    <name>A</name>
    <value>5</value>
</property>

在我向集群添加其他节点后，hadoop增加了映射器，而配置中没有任何其他更改。现在所有数据节点都以最大功能运行。

在小节点上构建hadoop集群

1 个答案: