Question

我很难理解哪种方法最适合我的情况以及如何实际实施。

简而言之，问题是这样的：

我正在使用Skaffold扩展数据库（Postgres），BE（Django）和FE（React）部署
BE在DB之前旋转大约50％的时间
Django要做的第一件事就是连接到数据库
它只会尝试一次（根据设计并且无法更改），如果无法尝试，它将失败并损坏应用程序

因此，我需要确保每次启动部署时，在开始进行BE部署之前，数据库部署都在运行中

我遇到了readiness, liveness, and starup probes。我已经阅读了好几次，并且准备情况调查听起来像我需要的：我不希望BE部署在数据库部署准备好接受连接之前就开始。

我想我不了解如何设置它。这是我尝试过的方法，但是我仍然遇到实例被加载到另一个实例之前的情况。

postgres.yaml

apiVersion: apps/v1
kind: Deployment
metadata:
  name: postgres-deployment
spec:
  replicas: 1
  selector:
    matchLabels:
      component: postgres
  template:
    metadata:
      labels:
        component: postgres
    spec:
      containers:
        - name: postgres
          image: testappcontainers.azurecr.io/postgres
          ports:
            - containerPort: 5432
          env: 
            - name: POSTGRES_DB
              valueFrom:
                secretKeyRef:
                  name: testapp-secrets
                  key: PGDATABASE
            - name: POSTGRES_USER
              valueFrom:
                secretKeyRef:
                  name: testapp-secrets
                  key: PGUSER
            - name: POSTGRES_PASSWORD
              valueFrom:
                secretKeyRef:
                  name: testapp-secrets
                  key: PGPASSWORD
            - name: POSTGRES_INITDB_ARGS
              value: "-A md5"
          volumeMounts:
            - name: postgres-storage
              mountPath: /var/lib/postgresql/data
              subPath: postgres
      volumes:
        - name: postgres-storage
          persistentVolumeClaim:
            claimName: postgres-storage
---
apiVersion: v1
kind: Service
metadata:
  name: postgres-cluster-ip-service
spec:
  type: ClusterIP
  selector:
    component: postgres
  ports:
    - port: 1423
      targetPort: 5432

api.yaml

apiVersion: apps/v1
kind: Deployment
metadata:
  name: api-deployment
spec:
  replicas: 3
  selector:
    matchLabels:
      component: api
  template:
    metadata:
      labels:
        component: api
    spec:
      containers:
        - name: api
          image: testappcontainers.azurecr.io/testapp-api
          ports:
            - containerPort: 5000
          env:
            - name: PGUSER
              valueFrom:
                secretKeyRef:
                  name: testapp-secrets
                  key: PGUSER
            - name: PGHOST
              value: postgres-cluster-ip-service
            - name: PGPORT
              value: "1423"
            - name: PGDATABASE
              valueFrom:
                secretKeyRef:
                  name: testapp-secrets
                  key: PGDATABASE
            - name: PGPASSWORD
              valueFrom:
                secretKeyRef:
                  name: testapp-secrets
                  key: PGPASSWORD
            - name: SECRET_KEY
              valueFrom:
                secretKeyRef:
                  name: testapp-secrets
                  key: SECRET_KEY
            - name: DEBUG
              valueFrom:
                secretKeyRef:
                  name: testapp-secrets
                  key: DEBUG
          readinessProbe:
            httpGet:
              host: postgres-cluster-ip-service
              port: 1423
            initialDelaySeconds: 10
            periodSeconds: 5
            timeoutSeconds: 2
---
apiVersion: v1
kind: Service
metadata:
  name: api-cluster-ip-service
spec:
  type: ClusterIP
  selector:
    component: api
  ports:
    - port: 5000
      targetPort: 5000

client.yaml

apiVersion: apps/v1
kind: Deployment
metadata:
  name: client-deployment
spec:
  replicas: 3
  selector:
    matchLabels:
      component: client
  template:
    metadata:
      labels:
        component: client
    spec:
      containers:
        - name: client
          image: testappcontainers.azurecr.io/testapp-client
          ports:
            - containerPort: 3000
          readinessProbe:
            httpGet:
              path: api-cluster-ip-service
              port: 5000
            initialDelaySeconds: 10
            periodSeconds: 5
            timeoutSeconds: 2
---
apiVersion: v1
kind: Service
metadata:
  name: client-cluster-ip-service
spec:
  type: ClusterIP
  selector:
    component: client
  ports:
    - port: 3000
      targetPort: 3000

我认为ingress.yaml和skaffold.yaml不会有帮助，但是请告诉我是否应该添加它们。

那我在做什么错了？

编辑：

因此，我根据David Maze的回复尝试了一些方法。这可以帮助我了解正在发生的事情，但是我仍然遇到一些我不太了解如何解决的问题。

第一个问题是，即使使用默认的restartPolicy: Always，即使Django失败，Pods本身也不会失败。 Pod认为即使Django失败了，它们也完全健康。

第二个问题是，显然需要使Pods了解Django的状态。那是我不太了解的部分，特别是探针应该检查其他部署或它们本身的状态吗？

昨天我的想法是前者，但今天我认为是后者：Pod需要知道其中包含的程序已失败。但是，我尝试过的所有操作只会导致探测失败，连接被拒绝等。

# referring to itself
host: /health
port: 5000

host: /healthz
port: 5000

host: /api
port: 5000

host: /
port: 5000

host: /api-cluster-ip-service
port: 5000

host: /api-deployment
port: 5000

# referring to the DB deployment
host: /health
port: 1423 #or 5432

host: /healthz
port: 1423 #or 5432

host: /api
port: 1423 #or 5432

host: /
port: 1423 #or 5432

host: /postgres-cluster-ip-service
port: 1423 #or 5432

host: /postgres-deployment
port: 1423 #or 5432

因此，尽管它是“超级简单”的实现，但显然我在设置探针是错误的（正如一些博客所描述的那样）。例如，/health和/healthz路由：这些是内置在Kubernetes中还是需要设置？重新阅读文档以希望澄清这一点。

Answer 1

您只是等待的时间不够长。

您在此处显示的部署工件看起来很正常。如果应用程序无法访问数据库，那么它快速失败是完全正常的，例如，因为它尚未启动。但是，每个吊舱都有一个restart policy，默认为Always。因此，当pod发生故障时，Kubernetes将重新启动它;当再次失败时，它将再次重新启动；并且当它继续失败时，Kubernetes将在重启之间暂停数十秒（可怕的CrashLoopBackOff状态）。

最终，如果您处于等待重启的循环中，则实际上将启动数据库，然后Kubernetes将重新启动您的应用程序Pod，此时应用程序将正常启动。

我在这里唯一要更改的是，您对两个Pod的准备情况探测应该探测服务本身，而不是其他一些服务。您可能希望path是/或/healthz之类的东西，或者是服务中实际HTTP请求路径的其他东西。如果它检测到其依赖项不可用，则可以返回503 Service Unavailable，否则您可能会崩溃。只是崩溃就可以了。

这是Kubernetes中完全正常的设置；没有更直接的说法是直到服务B准备就绪，才能启动PodA。不利的一面是这种模式实际上是通用的：如果您的应用程序崩溃并在无法访问其数据库时重新启动，则该数据库是否托管在集群外部还是在崩溃之后的某个时间崩溃都无关紧要。启动时间;同样的逻辑将尝试重新启动您的应用程序，直到它再次正常工作。

Answer 2

实际上，认为我可能已经解决了。

部分问题是即使restartPolicy: Always是默认设置，但Pod并没有意识到Django已失败，因此认为它们是健康的。

我的想法是错误的，因为我本来以为我需要在开始API部署之前先参考数据库部署以查看其是否已经启动。相反，我需要检查Django是否失败，然后重新部署。

通过以下操作为我完成了此任务：

livenessProbe:
  tcpSocket:
    port: 5000
  initialDelaySeconds: 2
  periodSeconds: 2
readinessProbe:
  tcpSocket:
    port: 5000
  initialDelaySeconds: 2
  periodSeconds: 2

我正在学习Kubernetes，因此，如果有更好的方法来执行此操作，或者这完全是错误的，请更正我。我只知道它能实现我想要的。

设置就绪，活跃或启动探针

2 个答案: