Question

我正在尝试运行一个单词计数示例。我目前的测试设置是：一台机器上的NameNode和ResourceManager（10.38.41.134）。另一个DataNode和NodeManager（10.38.41.135）。他们可以在没有密码的情况下在他们之间进行ssh。

在阅读日志时，我没有收到任何警告，除了安全警告（我没有设置它进行测试）和containermanager.AuxServices＆＃39; mapreduce_shuffle＆＃39;警告。提交示例作业后，节点会对其作出反应并输出日志，这表明它们可以很好地进行通信。 NodeManager输出内存使用情况，但作业没有预算。

我应该在哪里开始寻找问题？我能找到的其他一切都是旧的或不相关的。我按照版本2.5.1的官方群集设置教程，留下了太多未回答的问题。

我的conf文件如下：

芯-site.xml中

<configuration>
<property>
  <name>fs.defaultFS</name>
  <value>hdfs://10.38.41.134:9000</value>
</property>
</configuration>

HDFS-site.xml中

<configuration>
<property>
  <name>dfs.namenode.rpc-bind-host</name>
  <value>0.0.0.0</value>
</property>
<property>
  <name>dfs.namenode.servicerpc-bind-host</name>
  <value>0.0.0.0</value>
</property>
<property>
  <name>dfs.replication</name>
  <value>1</value>
</property>
<property>
  <name>dfs.client.block.write.replace-datanode-on-failure.enable</name>
  <value>NEVER</value>
  <description>
  </description>
</property>
<property>
  <name>dfs.namenode.datanode.registration.ip-hostname-check</name>
  <value>false</value>
</property>
</configuration>

mapred-site.xml中

<configuration>
<property>
  <name>mapreduce.framework.name</name>
  <value>yarn</value>
  <description>The runtime framework for executing MapReduce jobs.
  Can be one of local, classic or yarn.
  </description>
</property>
</configuration>

纱-site.xml中

<configuration>
  <property>
    <name>yarn.nodemanager.delete.debug-delay-sec</name>
    <value>300</value>
  </property>
  <property>
      <name>yarn.nodemanager.aux-services</name>
      <value>mapreduce_shuffle</value>
  </property>
  <property>
      <name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>
      <value>org.apache.hadoop.mapred.ShuffleHandler</value>
  </property>
  <property>
      <name>mapreduce.jobtracker.address</name>
      <value>10.38.41.134:50030</value>
  </property>
</configuration>

其他一切都是默认的。

Answer 1

我建议您首先尝试使用单个服务器群集，以便更容易调试。当它工作时，继续使用两个节点。

如前所述，内存可能是一个问题。如果不调整设置，似乎最低约2GB，我建议每台服务器至少4GB。还要记得检查作业的日志（在logs / userlogs下，特别是syslog）。

P.S。我对旧的/不相关的文档感到沮丧。

Hadoop 2.5.1作业停留在地图0％并减少0％

1 个答案: