运行Apache Spark Job

时间:2017-05-18 22:16:08

标签: tcp hdfs rpc hortonworks-data-platform namenode

我们有两个HDP群集设置,我们称之为A和B.

群集NODES

  • 它共包含20台商品机器。
  • 有20个数据节点。
  • 在配置了namenode HA时,有一个活动名称节点和一个备用名称节点。

CLUSTER B NODES

  • 它共包含5台商品机。
  • 有5个数据节点。
  • 没有配置HA,此群集有一个主要名称节点和一个辅助名称节点。

我们的应用程序中有三个主要组件对传入文件执行ETL(提取,转换和加载)操作。我将这些组件分别称为E,T和L.

组件E特征

  • 此组件是Apache Spark作业,它仅在群集B上运行。
  • 它的工作是从NAS存储中获取文件并将它们放入群集B中的HDFS中。

组件T特性

  • 此组件也是Apache Spark Job,它在群集B上运行。
  • 它的工作是获取组件E编写的HDFS文件,转换它们,然后将转换后的文件写入集群A中的HDFS。

组件L特征

  • 此组件也是Apache Spark作业,它仅在群集A上运行。
  • 它的工作是获取组件T编写的文件,并将数据加载到群集A中的Hive表。

组件L是所有三个组件中的宝石,我们没有遇到任何故障。组分E中存在轻微的无法解释的毛刺,但组分T是最麻烦的毛刺。

组件E和T都使用DFS客户端与namenode进行通信。

以下是我们在运行组件T时间歇性地观察到的异常的摘录:

clusterA.namenode.com/10.141.160.141:8020. Trying to fail over immediately.
java.io.IOException: Failed on local exception: java.io.IOException: Connection reset by peer; Host Details : local host is: "clusterB.datanode.com"; destination host is: "clusterA.namenode.com":8020;
            at org.apache.hadoop.net.NetUtils.wrapException(NetUtils.java:782)
            at org.apache.hadoop.ipc.Client.call(Client.java:1459)
            at org.apache.hadoop.ipc.Client.call(Client.java:1392)
            at org.apache.hadoop.ipc.ProtobufRpcEngine$Invoker.invoke(ProtobufRpcEngine.java:229)
            at com.sun.proxy.$Proxy15.complete(Unknown Source)
            at org.apache.hadoop.hdfs.protocolPB.ClientNamenodeProtocolTranslatorPB.complete(ClientNamenodeProtocolTranslatorPB.java:464)
            at sun.reflect.GeneratedMethodAccessor1240.invoke(Unknown Source)
            at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
            at java.lang.reflect.Method.invoke(Method.java:498)
            at org.apache.hadoop.io.retry.RetryInvocationHandler.invokeMethod(RetryInvocationHandler.java:258)
            at org.apache.hadoop.io.retry.RetryInvocationHandler.invoke(RetryInvocationHandler.java:104)
            at com.sun.proxy.$Proxy16.complete(Unknown Source)
            at org.apache.hadoop.hdfs.DFSOutputStream.completeFile(DFSOutputStream.java:2361)
            at org.apache.hadoop.hdfs.DFSOutputStream.closeImpl(DFSOutputStream.java:2338)
            at org.apache.hadoop.hdfs.DFSOutputStream.close(DFSOutputStream.java:2303)
            at org.apache.hadoop.fs.FSDataOutputStream$PositionCache.close(FSDataOutputStream.java:72)
            at org.apache.hadoop.fs.FSDataOutputStream.close(FSDataOutputStream.java:106)
            at org.apache.hadoop.io.compress.CompressorStream.close(CompressorStream.java:109)
            at sun.nio.cs.StreamEncoder.implClose(StreamEncoder.java:320)
            at sun.nio.cs.StreamEncoder.close(StreamEncoder.java:149)
            at java.io.OutputStreamWriter.close(OutputStreamWriter.java:233)
            at com.abc.xyz.io.CounterWriter.close(CounterWriter.java:34)
            at com.abc.xyz.common.io.PathDataSink.close(PathDataSink.java:47)
            at com.abc.xyz.diamond.parse.map.node.AbstractOutputNode.finalise(AbstractOutputNode.java:142)
            at com.abc.xyz.diamond.parse.map.application.spark.node.SparkOutputNode.finalise(SparkOutputNode.java:239)
            at com.abc.xyz.diamond.parse.map.DiamondMapper.onParseComplete(DiamondMapper.java:1072)
            at com.abc.xyz.diamond.parse.decode.decoder.DiamondDecoder.parse(DiamondDecoder.java:956)
            at com.abc.xyz.parsing.functions.ProcessorWrapper.process(ProcessorWrapper.java:96)
            at com.abc.xyz.parser.FlumeEvent2AvroBytes.call(FlumeEvent2AvroBytes.java:131)
            at com.abc.xyz.parser.FlumeEvent2AvroBytes.call(FlumeEvent2AvroBytes.java:45)
            at org.apache.spark.api.java.JavaRDDLike$$anonfun$fn$1$1.apply(JavaRDDLike.scala:129)
            at org.apache.spark.api.java.JavaRDDLike$$anonfun$fn$1$1.apply(JavaRDDLike.scala:129)
            at scala.collection.Iterator$$anon$13.hasNext(Iterator.scala:371)
            at scala.collection.Iterator$$anon$14.hasNext(Iterator.scala:388)
            at scala.collection.convert.Wrappers$IteratorWrapper.hasNext(Wrappers.scala:29)
            at com.abc.xyz.zzz.ParseFrameHolder$ToKafkaStream.call(ParseFrameHolder.java:123)
            at com.abc.xyz.zzz.ParseFrameHolder$ToKafkaStream.call(ParseFrameHolder.java:82)
            at org.apache.spark.api.java.JavaRDDLike$$anonfun$foreachPartition$1.apply(JavaRDDLike.scala:225)
            at org.apache.spark.api.java.JavaRDDLike$$anonfun$foreachPartition$1.apply(JavaRDDLike.scala:225)
            at org.apache.spark.rdd.RDD$$anonfun$foreachPartition$1$$anonfun$apply$35.apply(RDD.scala:927)
            at org.apache.spark.rdd.RDD$$anonfun$foreachPartition$1$$anonfun$apply$35.apply(RDD.scala:927)
            at org.apache.spark.SparkContext$$anonfun$runJob$5.apply(SparkContext.scala:1882)
            at org.apache.spark.SparkContext$$anonfun$runJob$5.apply(SparkContext.scala:1882)
            at org.apache.spark.scheduler.ResultTask.runTask(ResultTask.scala:66)
            at org.apache.spark.scheduler.Task.run(Task.scala:89)
            at org.apache.spark.executor.Executor$TaskRunner.run(Executor.scala:227)
            at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1142)
            at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:617)
            at java.lang.Thread.run(Thread.java:745)
Caused by: java.io.IOException: Connection reset by peer
            at sun.nio.ch.FileDispatcherImpl.read0(Native Method)
            at sun.nio.ch.SocketDispatcher.read(SocketDispatcher.java:39)
            at sun.nio.ch.IOUtil.readIntoNativeBuffer(IOUtil.java:223)
            at sun.nio.ch.IOUtil.read(IOUtil.java:197)
            at sun.nio.ch.SocketChannelImpl.read(SocketChannelImpl.java:380)
            at org.apache.hadoop.net.SocketInputStream$Reader.performIO(SocketInputStream.java:57)
            at org.apache.hadoop.net.SocketIOWithTimeout.doIO(SocketIOWithTimeout.java:142)
            at org.apache.hadoop.net.SocketInputStream.read(SocketInputStream.java:161)
            at org.apache.hadoop.net.SocketInputStream.read(SocketInputStream.java:131)
            at java.io.FilterInputStream.read(FilterInputStream.java:133)
            at java.io.FilterInputStream.read(FilterInputStream.java:133)
            at org.apache.hadoop.ipc.Client$Connection$PingInputStream.read(Client.java:554)
            at java.io.BufferedInputStream.fill(BufferedInputStream.java:246)
            at java.io.BufferedInputStream.read(BufferedInputStream.java:265)
            at java.io.DataInputStream.readInt(DataInputStream.java:387)
            at org.apache.hadoop.ipc.Client$Connection.receiveRpcResponse(Client.java:1116)
            at org.apache.hadoop.ipc.Client$Connection.run(Client.java:1011)   

如上所述,我们非常间歇地面对此异常,当它确实发生时,我们的应用程序会卡住,导致我们重新启动它。

我们尝试的解决方案:

  • 我们的第一个疑点是我们正在重载群集A中的活动名称节点,因为组件T并行打开了大量的DFS客户端,并对不同的文件执行文件操作(在同一文件上没有争用问题)。在我们努力解决这个问题时,我们查看了namenode dfs.namenode.handler.count ipc.server.listen.queue.size 的两个关键参数后者从128(默认)到1024。

  • 不幸的是,问题仍然存在于组件T中。我们开始对问题采取不同的方法。我们专注于找到连接重置对等的原因。根据很多文章和堆栈交换讨论,问题描述如下, RST 标志已由对等方设置,导致连接立即终止 。在我们的例子中,我们确定了对等体是集群A的名称节点。

  • 记住RST标志,我深入了解了TCP通信的内部结构,仅限于w.r.t. RST标志的原因。

  • Linux发行版中的每个套接字(不是BSD)都有两个与之关联的队列,即accept和backlog队列。
  • 在TCP握手过程中,所有请求都保留在积压队列中,直到从开始建立连接的节点收到ACK数据包。收到后,请求将被转移到接受队列,打开套接字的应用程序可以开始从远程客户端接收数据包。
  • 积压队列的大小由两个内核级参数控制,即 net.ipv4.tcp_max_syn_backlog net.core.somaxconn ,而应用程序(在我们的案例中为namenode) )可以向内核请求它希望受上限限制的队列大小(我们认为接受队列大小是由 ipc.server.listen.queue.size 定义的队列大小)。
  • 此外,另一个有趣的事情是,如果 net.ipv4.tcp_max_syn_backlog 的大小大于 net.core.somaxconn ,那么前者被截断为后者。此声明基于Linux文档,可在https://linux.die.net/man/2/listen
  • 找到
  • 回到这一点,当积压完全填满时,TCP会以两种方式运行,这种行为也可以通过名为 net.ipv4.tcp_abort_on_overflow 的内核参数来控制。这默认情况下设置为0并导致内核在积压已满时丢弃任何新的SYN数据包,这反过来又让发送方重新发送SYN数据包。设置为1时,内核将在数据包中标记RST标志并将其发送给发送方,从而突然终止连接。

  • 我们检查了上述内核参数的值,发现 net.core.somaxconn 设置为1024, net.ipv4.tcp_abort_on_overflow 是设置为0,并且在两个群集中的所有计算机上将 net.ipv4.tcp_max_syn_backlog 设置为4096。

  • 我们现在唯一的疑问是将群集A连接到群集B的交换机,因为任何群集中的任何一台机器都不会将RST标志设置为参数 net.ipv4。 tcp_abort_on_overflow 设置为0.

我的问题

  • 从HDFS文档中可以明显看出,DFS客户端使用RPC与namenode进行通信以执行文件操作。每个RPC调用是否都涉及建立与namenode的TCP连接?
  • 参数 ipc.server.listen.queue.size 是否定义了namenode接受RPC请求的套接字的接受队列长度?
  • 在重负载下,namenode可以隐式关闭与DFS客户端的连接,从而使内核发送一个设置了RST标志的数据包,即使内核参数 net.ipv4.tcp_abort_on_overflow 设置为0?
  • L2或L3交换机(用于连接我们两个集群中的机器)是否能够设置RST标志,因为它们无法处理突发流量?

我们解决此问题的下一个方法是通过使用tcpdump或wireshark分析数据包来识别哪个机器或交换机(没有涉及路由器)正在设置RST标志。我们还将上面提到的所有队列的大小增加到4096,以便有效地处理突发流量。

namenode日志显示没有任何异常的迹象,除了Ambari中看到的Namenode连接负载在某些时间点偷看,而不一定是在发生Connection Reset By Peer异常时。

总而言之,我想知道我们是否正走在正确的轨道上来解决这个问题,还是我们刚刚走向死胡同?

P.S。我为我的问题中的内容长度道歉。在寻求任何帮助或建议之前,我想向读者展示整个背景。感谢您的耐心等待。

1 个答案:

答案 0 :(得分:0)

首先,您的网络中确实可能存在一些奇怪的事情,也许您将设法通过提及的步骤对其进行跟踪。

话虽这么说,但是当我观察这些步骤时,我个人发现有些违反直觉的事情。

您当前需要执行步骤T,以及最脆弱的集群内传输。也许您看到的可靠性要比普通人差,但是我会认真考虑将复杂部分和易碎部分分开。

如果执行此操作(或简单地将工作分成较小的块),则设计一个解决方案应该很简单,该解决方案可能会发现其脆弱的步骤有时会失败,但是在这种情况下只需重试即可。当然,重试将以最低的成本进行,因为只需要重试一小部分工作。


总结:这可能有助于解决连接问题,但如果可能的话,您可能想设计间歇性的故障诱饵。