Jenkins作业(在网络A中)在从属计算机(例如,网络A中的服务器A)上运行。 Jenkins作业在构建过程中具有将SSH SSH到服务器(例如网络B中的服务器B)并执行进一步步骤的说明。
作业运行约2.5个小时。它非常随机地失败,并显示错误消息
18:24:14 Aborted by <USERNAME>
18:24:14 Finished: ABORTED
在执行构建的服务器B上,TCP keep alive设置为yes,并每80秒探测一次信号。在内核级别,tcpkeepalive参数设置为2.5小时。
我确定问题出在这台机器上不是超时,因为我已经看到成功运行了157分钟的运行。
构建日志没有任何其他行,也没有描述性。
如何有效调试此问题?我们无法跟踪网络流量,因为使用SSH建立从站时只有一个会话。
万一这是由于构建中的任何错误引起的,我如何让Jenkins抛出描述性消息,以便我们可以缩小到根本原因?
在网络中可以具体跟踪哪些内容以检查是否是由于网络故障引起的?