yarn hadoop 2.4.0:info message:ipc.Client重试连接到服务器

时间:2014-06-08 14:25:06

标签: hadoop mapreduce ipc yarn

我搜索了两天的解决方案。但没有任何效果。

首先,我是整个hadoop / yarn / hdfs主题的新手,想要配置一个小集群。

每次我从mapreduce-examples.jar运行一个示例时,上面的消息都不显示 有时teragen工作,有时不工作。 在某些情况下,整个工作失败了,在其他情况下,工作顺利完成。有时工作失败,而不打印上面的信息。

14/06/08 15:42:46 INFO ipc.Client: Retrying connect to server: FQDN-HOSTNAME/XXX.XX.XX.XXX:53022. Already tried 2 time(s); retry policy is RetryUpToMaximumCountWithFixedSleep(maxRetries=3, sleepTime=1000 MILLISECONDS)

此消息打印30次。每次启动作业时,端口(代码示例:53022)也会发生变化。 如果工作成功完成,那就是打印

14/06/08 15:34:20 INFO mapred.ClientServiceDelegate: Application state is completed. FinalApplicationStatus=SUCCEEDED. Redirecting to job history server
14/06/08 15:34:20 INFO mapreduce.Job: Job job_1402234146062_0002 running in uber mode : false
14/06/08 15:34:20 INFO mapreduce.Job:  map 100% reduce 100%
14/06/08 15:34:20 INFO mapreduce.Job: Job job_1402234146062_0002 completed successfully

如果失败,则会显示。

INFO mapreduce.Job: Job job_1402234146062_0005 failed with state FAILED due to: Task failed task_1402234146062_0005_m_000002
Job failed as tasks failed. failedMaps:1 failedReduces:0

在这种情况下,某些任务失败。但是在nodemanager,datanode,resourcemanager等的日志文件中,没有理由或消息可供查找。

INFO mapreduce.Job: Task Id : attempt_1402234146062_0006_m_000002_1, Status : FAILED

有关我的配置的其他信息: 使用OS:centOS 6.5 Java版本:OpenJDK运行时环境(rhel-2.4.7.1.el6_5-x86_64 u55-b13)               OpenJDK 64位服务器VM(内置24.51-b03,混合模式)

纱-site.xml中

<configuration>

<!-- Site specific YARN configuration properties -->
        <property>
                <name>yarn.nodemanager.address</name>
                <value>FQDN-HOSTNAME:8050</value>
        </property>
        <property>
                <name>yarn.nodemanager.aux-services</name>
                <value>mapreduce_shuffle</value>
        </property>
        <property>
                  <name>yarn.nodemanager.localizer.address</name>
                  <value>FQDN-HOSTNAME:8040</value>
        </property>
        <property>
                <name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>
                <value>org.apache.hadoop.mapred.ShuffleHandler</value>
        </property>
        <property>
                  <name>yarn.resourcemanager.resource-tracker.address</name>
                  <value>FQDN-HOSTNAME:8025</value>
        </property>
        <property>
                  <name>yarn.resourcemanager.scheduler.address</name>
                  <value>FQDN-HOSTNAME:8030</value>
        </property>
        <property>
                  <name>yarn.resourcemanager.address</name>
                  <value>FQDN-HOSTNAME:8032</value>
        </property>
</configuration>

HDFS-site.xml中

    <configuration>
        <property>
                <name>dfs.replication</name>
                <value>2</value>
        </property>
        <property>
                   <name>dfs.permissions </name>
                   <value>false </value>
        </property>
        <property>
                <name>dfs.namenode.name.dir</name>
                <value>file:///var/data/hadoop/hdfs/nn</value>
        </property>
        <property>
                <name>fs.checkpoint.dir</name>
                <value>file:///var/data/hadoop/hdfs/snn</value>
        </property>
        <property>
                <name>fs.checkpoint.edits.dir</name>
                <value>file:///var/data/hadoop/hdfs/snn</value>
                <name>fs.checkpoint.edits.dir</name>
                <value>file:///var/data/hadoop/hdfs/snn</value>
        </property>
        <property>
                <name>dfs.datanode.data.dir</name>
                <value>file:///var/data/hadoop/hdfs/dn</value>
        </property>
</configuration>

mapred-site.xml中

<configuration>
        <property>
                <name>mapreduce.framework.name</name>
                <value>yarn</value>
        </property>
        <property>
                <name>mapreduce.cluster.temp.dir</name>
                <value>/mapred/tempDir</value>
        </property>
        <property>
                <name>mapreduce.cluster.local.dir</name>
                <value>/mapred/localDir</value>
        </property>
        <property>
                <name>mapreduce.jobhistory.address</name>
                <value>FQDN-HOSTNAME:10020</value>
        </property>
</configuration>

我希望有人可以帮助我。 :) 谢谢, 诺曼

6 个答案:

答案 0 :(得分:1)

作业有时会成功完成,因为当你有一个reducer并且那个偶然的减少任务被发送到working节点管理器时,它就会成为成功的工作。

您必须确保FQDN-HOSTNAME文件中slaves的编写方式完全相同。如果我没记错的话,我的解决方案就是删除了/etc/hosts中主机名映射的条目,就是这样注释:

#127.0.0.1    FQDN-HOSTNAME

答案 1 :(得分:0)

另一种可能的解决方案是检查所有节点中的防火墙。 如果你正在处理iptables,你可以在每个节点上运行它:

# /etc/init.d/iptables save
# /etc/init.d/iptables stop

这将在下次重新启动之前停止防火墙,但它应该足以让您测试群集。你不必重新开始纱线或任何东西,只需重新开始工作。

如果你想完全停止FW:

# chkconfig iptables off

答案 2 :(得分:0)

哇!这些答案是否真实?当作业明确完成时谈论FQDN ......只要防火墙被禁用?而且OP甚至会提供详细的日志消息/配置。

来吧伙计们 - RTFQ。问题是yarn.app.mapreduce.am.job.client.port-range没有被尊重。我也遇到了它。

防火墙关闭...一切都很好(我可以看到来自纱线工作的短暂端口)。

防火墙......所有时间都出局(最终)。

霍顿完全忽略了其他委员会的这个问题。

所以这是来自作业的日志输出,用于演示问题。在第一种情况下,我在客户端上启用了防火墙,基于Horton的doc(以及通过仔细查看我的安装我发现的其他端口)。你会看到进程超时......然后突然工作。因为我在看完作业输出后禁用了防火墙:)

2015-01-15 16:48:22,943 INFO [main] org.apache.hadoop.ipc.Client: Retrying connect to server: de-luster-l2723nraqsy5-ywhniidze3lb-qfk4asn77vc5/10.0.0.41:52015. Already tried 39 time(s); retry policy is RetryUpToMaximumCountWithFixedSleep(maxRetries=50, sleepTime=1000 MILLISECONDS)
2015-01-15 16:48:23,349 INFO [main] org.apache.hadoop.mapred.YarnChild: mapreduce.cluster.local.dir for child: /hadoop/yarn/local/usercache/l.admin/appcache/application_1420482341308_0020
2015-01-15 16:48:24,122 INFO [main] org.apache.hadoop.conf.Configuration.deprecation: session.id is deprecated. Instead, use dfs.metrics.session-id
2015-01-15 16:48:24,656 INFO [main] org.apache.hadoop.mapred.Task:  Using ResourceCalculatorProcessTree : [ ]
2015-01-15 16:48:24,724 INFO [main] org.apache.hadoop.mapred.ReduceTask: Using ShuffleConsumerPlugin: org.apache.hadoop.mapreduce.task.reduce.Shuffle@7f94ee59
2015-01-15 16:48:24,792 INFO [main] org.apache.hadoop.mapreduce.task.reduce.MergeManagerImpl: MergerManager: memoryLimit=534354336, maxSingleShuffleLimit=133588584, mergeThreshold=352673888, ioSortFactor=100, memToMemMergeOutputsThreshold=100

你看到了吗?超时问题...然后突然开始Shuffle。毕竟与FQDN无关:)

但我会找到解决方案并发回。

答案 3 :(得分:0)

绝对是一个错误,这篇文章提供了更清楚地了解正在发生的事情。   https://groups.google.com/a/cloudera.org/forum/#!msg/cdh-user/P1rfMQmYVWk/eARZXHUTkW0J

我们计划通过减少短暂的端口范围来解决这个问题,从而限制抓取的端口,然后配置iptables以允许该端口范围。此处说明设置端口范围 -  http://www.ncftp.com/ncftpd/doc/misc/ephemeral_ports.html

答案 4 :(得分:0)

这是MR AppMaster如何使用临时端口启动的错误。它也存在于Hadoop 2.6.0发行版中 我已经找到了修复这个bug并在MAPREDUCE项目上创建了一个JIRA以及如何修复它的注释。

https://issues.apache.org/jira/browse/MAPREDUCE-6338

答案 5 :(得分:0)

如果您看到类似的消息

INFO ipc.Client: Retrying connect to server: <hostname>/<ip>:<port>. Already tried 1 time(s); maxRetries=3

需要检查:

  • 检查客户端和节点管理器之间的防火墙
  • 默认检查yarn.app.mapreduce.am.job.client.port-range,他的范围是所有可能的端口