我很难理解哪种方法最适合我的情况以及如何实际实施。
简而言之,问题是这样的:
我遇到了readiness, liveness, and starup probes。我已经阅读了好几次,并且准备情况调查听起来像我需要的:我不希望BE部署在数据库部署准备好接受连接之前就开始。
我想我不了解如何设置它。这是我尝试过的方法,但是我仍然遇到实例被加载到另一个实例之前的情况。
postgres.yaml
apiVersion: apps/v1
kind: Deployment
metadata:
name: postgres-deployment
spec:
replicas: 1
selector:
matchLabels:
component: postgres
template:
metadata:
labels:
component: postgres
spec:
containers:
- name: postgres
image: testappcontainers.azurecr.io/postgres
ports:
- containerPort: 5432
env:
- name: POSTGRES_DB
valueFrom:
secretKeyRef:
name: testapp-secrets
key: PGDATABASE
- name: POSTGRES_USER
valueFrom:
secretKeyRef:
name: testapp-secrets
key: PGUSER
- name: POSTGRES_PASSWORD
valueFrom:
secretKeyRef:
name: testapp-secrets
key: PGPASSWORD
- name: POSTGRES_INITDB_ARGS
value: "-A md5"
volumeMounts:
- name: postgres-storage
mountPath: /var/lib/postgresql/data
subPath: postgres
volumes:
- name: postgres-storage
persistentVolumeClaim:
claimName: postgres-storage
---
apiVersion: v1
kind: Service
metadata:
name: postgres-cluster-ip-service
spec:
type: ClusterIP
selector:
component: postgres
ports:
- port: 1423
targetPort: 5432
api.yaml
apiVersion: apps/v1
kind: Deployment
metadata:
name: api-deployment
spec:
replicas: 3
selector:
matchLabels:
component: api
template:
metadata:
labels:
component: api
spec:
containers:
- name: api
image: testappcontainers.azurecr.io/testapp-api
ports:
- containerPort: 5000
env:
- name: PGUSER
valueFrom:
secretKeyRef:
name: testapp-secrets
key: PGUSER
- name: PGHOST
value: postgres-cluster-ip-service
- name: PGPORT
value: "1423"
- name: PGDATABASE
valueFrom:
secretKeyRef:
name: testapp-secrets
key: PGDATABASE
- name: PGPASSWORD
valueFrom:
secretKeyRef:
name: testapp-secrets
key: PGPASSWORD
- name: SECRET_KEY
valueFrom:
secretKeyRef:
name: testapp-secrets
key: SECRET_KEY
- name: DEBUG
valueFrom:
secretKeyRef:
name: testapp-secrets
key: DEBUG
readinessProbe:
httpGet:
host: postgres-cluster-ip-service
port: 1423
initialDelaySeconds: 10
periodSeconds: 5
timeoutSeconds: 2
---
apiVersion: v1
kind: Service
metadata:
name: api-cluster-ip-service
spec:
type: ClusterIP
selector:
component: api
ports:
- port: 5000
targetPort: 5000
client.yaml
apiVersion: apps/v1
kind: Deployment
metadata:
name: client-deployment
spec:
replicas: 3
selector:
matchLabels:
component: client
template:
metadata:
labels:
component: client
spec:
containers:
- name: client
image: testappcontainers.azurecr.io/testapp-client
ports:
- containerPort: 3000
readinessProbe:
httpGet:
path: api-cluster-ip-service
port: 5000
initialDelaySeconds: 10
periodSeconds: 5
timeoutSeconds: 2
---
apiVersion: v1
kind: Service
metadata:
name: client-cluster-ip-service
spec:
type: ClusterIP
selector:
component: client
ports:
- port: 3000
targetPort: 3000
我认为ingress.yaml
和skaffold.yaml
不会有帮助,但是请告诉我是否应该添加它们。
那我在做什么错了?
编辑:
因此,我根据David Maze的回复尝试了一些方法。这可以帮助我了解正在发生的事情,但是我仍然遇到一些我不太了解如何解决的问题。
第一个问题是,即使使用默认的restartPolicy: Always
,即使Django失败,Pods本身也不会失败。 Pod认为即使Django失败了,它们也完全健康。
第二个问题是,显然需要使Pods了解Django的状态。那是我不太了解的部分,特别是探针应该检查其他部署或它们本身的状态吗?
昨天我的想法是前者,但今天我认为是后者:Pod需要知道其中包含的程序已失败。但是,我尝试过的所有操作只会导致探测失败,连接被拒绝等。
# referring to itself
host: /health
port: 5000
host: /healthz
port: 5000
host: /api
port: 5000
host: /
port: 5000
host: /api-cluster-ip-service
port: 5000
host: /api-deployment
port: 5000
# referring to the DB deployment
host: /health
port: 1423 #or 5432
host: /healthz
port: 1423 #or 5432
host: /api
port: 1423 #or 5432
host: /
port: 1423 #or 5432
host: /postgres-cluster-ip-service
port: 1423 #or 5432
host: /postgres-deployment
port: 1423 #or 5432
因此,尽管它是“超级简单”的实现,但显然我在设置探针是错误的(正如一些博客所描述的那样)。例如,/health
和/healthz
路由:这些是内置在Kubernetes中还是需要设置?重新阅读文档以希望澄清这一点。
答案 0 :(得分:2)
您只是等待的时间不够长。
您在此处显示的部署工件看起来很正常。如果应用程序无法访问数据库,那么它快速失败是完全正常的,例如,因为它尚未启动。但是,每个吊舱都有一个restart policy,默认为Always
。因此,当pod发生故障时,Kubernetes将重新启动它;当再次失败时,它将再次重新启动;并且当它继续失败时,Kubernetes将在重启之间暂停数十秒(可怕的CrashLoopBackOff
状态)。
最终,如果您处于等待重启的循环中,则实际上将启动数据库,然后Kubernetes将重新启动您的应用程序Pod,此时应用程序将正常启动。
我在这里唯一要更改的是,您对两个Pod的准备情况探测应该探测服务本身,而不是其他一些服务。您可能希望path
是/
或/healthz
之类的东西,或者是服务中实际HTTP请求路径的其他东西。如果它检测到其依赖项不可用,则可以返回503 Service Unavailable,否则您可能会崩溃。只是崩溃就可以了。
这是Kubernetes中完全正常的设置;没有更直接的说法是直到服务B准备就绪,才能启动PodA。不利的一面是这种模式实际上是通用的:如果您的应用程序崩溃并在无法访问其数据库时重新启动,则该数据库是否托管在集群外部还是在崩溃之后的某个时间崩溃都无关紧要。启动时间;同样的逻辑将尝试重新启动您的应用程序,直到它再次正常工作。
答案 1 :(得分:0)
实际上,认为我可能已经解决了。
部分问题是即使restartPolicy: Always
是默认设置,但Pod并没有意识到Django已失败,因此认为它们是健康的。
我的想法是错误的,因为我本来以为我需要在开始API部署之前先参考数据库部署以查看其是否已经启动。相反,我需要检查Django是否失败,然后重新部署。
通过以下操作为我完成了此任务:
livenessProbe:
tcpSocket:
port: 5000
initialDelaySeconds: 2
periodSeconds: 2
readinessProbe:
tcpSocket:
port: 5000
initialDelaySeconds: 2
periodSeconds: 2
我正在学习Kubernetes,因此,如果有更好的方法来执行此操作,或者这完全是错误的,请更正我。我只知道它能实现我想要的。