AWS上的SAP Vora2.1间歇性地停止运行

时间:2018-05-10 15:51:02

标签: vora

我已使用kops在AWS上设置了SAP Vora2.1安装。它是一个4节点集群,具有1个主节点和3个节点。 vsystem-vrep的持久卷要求是使用AWS-EFS以及使用AWS-EBS为其他有状态组件提供的。虽然安装完成并运行了几天但是在5个vora pod开始显示一些问题后3-4天之后, 沃拉型录 沃拉关系 沃拉,时间序列 沃拉-TX-协调员 沃拉盘

每个容器都有2个容器,两个容器都应该启动并运行。然而,在3-4天之后,其中一个容器自行关闭,尽管kubernetes集群已启动并运行。我尝试了各种方法来启动和运行这些pod所有必需的容器,但它没有出现。

我已经将vora-disk的事件捕获为样本,但所有pod都显示相同的跟踪,

Events:
  FirstSeen     LastSeen        Count   From                                                            SubObjectPath           Type            Reason          Message
  ---------     --------        -----   ----                                                            -------------           --------        ------          -------
  1h            7m              21      kubelet, ip-172-31-64-23.ap-southeast-2.compute.internal        spec.containers{disk}   Warning         Unhealthy       Liveness probe failed: dial tcp 100.96.7.21:10002: getsockopt: connection refused
  1h            2m              11      kubelet, ip-172-31-64-23.ap-southeast-2.compute.internal        spec.containers{disk}   Normal          Killing         Killing container with id docker://disk:pod "vora-disk-0_vora(2f5ea6df-545b-11e8-90fd-029979a0ef92)" container "disk" is unhealthy, it will be killed and re-created.
  1h            58s             51      kubelet, ip-172-31-64-23.ap-southeast-2.compute.internal                                Warning         FailedSync      Error syncing pod
  1h            58s             41      kubelet, ip-172-31-64-23.ap-southeast-2.compute.internal        spec.containers{disk}   Warning         BackOff         Back-off restarting failed container
  1h            46s             11      kubelet, ip-172-31-64-23.ap-southeast-2.compute.internal        spec.containers{disk}   Normal          Started         Started container
  1h            46s             11      kubelet, ip-172-31-64-23.ap-southeast-2.compute.internal        spec.containers{disk}   Normal          Pulled          Container image "ip-172-31-13-236.ap-southeast-2.compute.internal:5000/vora/dqp:2.1.32.19-vora-2.1" already present on machine
  1h            46s             11      kubelet, ip-172-31-64-23.ap-southeast-2.compute.internal        spec.containers{disk}   Normal          Created         Created container
  1h            1s              988     kubelet, ip-172-31-64-23.ap-southeast-2.compute.internal        spec.containers{disk}   Warning         Unhealthy       Readiness probe failed: HTTP probe failed with statuscode: 503

感谢是否有任何指针可以解决此问题。

感谢Frank给你的建议和指针。毫无疑问,这有助于克服一些问题,但不是全部。

我们特别注意到与Vora服务相关的问题无缘无故。虽然我们知道可能有一些原因导致Vora发生故障,但是管理员指南或互联网上的任何地方都无法提供恢复程序。我们已经看到由vora-operator创建的Vora服务发生故障(这些pod中的每一个都包含一个安全容器和其他特定于服务的容器。特定于服务的容器关闭但不会出现)。我们尝试了各种选项,例如重新启动所有vora pod或仅重新启动与vora部署运营商相关的pod,但这些pod不会出现。在这种情况下,我们正在重新部署Vora,但这基本上意味着以前的所有工作都会消失。是否有任何命令或方式使Vora pods能够提供所有容器?

1 个答案:

答案 0 :(得分:1)

SAP Note 2631736 - Liveness and Readiness issue in Vora 2.x中描述了此问题 - 建议增加运行状况检查间隔。