Kunbernetes Ingress上的上游超时(110:连接超时)

时间:2019-01-28 00:23:29

标签: nginx kubernetes kubernetes-ingress nginx-ingress

我已经设置了Kubernetes集群,并且在其中设置了一个入口规则,以将流量转发到Web服务器。

---
apiVersion: extensions/v1beta1
kind: Ingress
metadata:
  name: alpha-ingress
  annotations:
    kubernetes.io/ingress.class: nginx
    certmanager.k8s.io/cluster-issuer: letsencrypt-prod
spec:
  tls:
    - hosts:
        - alpha.example.com
      secretName: letsencrypt-prod
  rules:
    - host: alpha.example.com
      http:
        paths:
          - backend:
              serviceName: web
              servicePort: 80

最终,浏览器因504错误而超时,在Ingress日志中,我看到

  

2019/01/27 23:45:38 [错误] 41#41:* 4943上游超时(110:   连接超时),同时从上游读取响应标头,   客户:10.131.24.163,服务器:alpha.example.com,请求:“获取/   HTTP / 2.0”,上游:“ http://10.244.93.12:80/”,主机:   “ alpha.example.com”

该IP地址上没有任何服务...

╰─$ kgs --all-namespaces                                                                                                                                                                                                                                                  130 ↵
NAMESPACE       NAME                            TYPE           CLUSTER-IP       EXTERNAL-IP      PORT(S)                      AGE
default         database                        ClusterIP      10.245.181.187   <none>           5432/TCP                     4d8h
default         kubernetes                      ClusterIP      10.245.0.1       <none>           443/TCP                      9d
default         user-api                        ClusterIP      10.245.41.8      <none>           9000/TCP                     4d8h
default         web                             ClusterIP      10.245.145.213   <none>           80/TCP,443/TCP               34h
ingress-nginx   ingress-nginx                   LoadBalancer   10.245.25.107    <external-ip>   80:31680/TCP,443:32324/TCP   50m
kube-system     grafana                         ClusterIP      10.245.81.91     <none>           80/TCP                       6d1h
kube-system     kube-dns                        ClusterIP      10.245.0.10      <none>           53/UDP,53/TCP,9153/TCP       9d
kube-system     prometheus-alertmanager         ClusterIP      10.245.228.165   <none>           80/TCP                       6d2h
kube-system     prometheus-kube-state-metrics   ClusterIP      None             <none>           80/TCP                       6d2h
kube-system     prometheus-node-exporter        ClusterIP      None             <none>           9100/TCP                     6d2h
kube-system     prometheus-pushgateway          ClusterIP      10.245.147.195   <none>           9091/TCP                     6d2h
kube-system     prometheus-server               ClusterIP      10.245.202.186   <none>           80/TCP                       6d2h
kube-system     tiller-deploy                   ClusterIP      10.245.11.85     <none>           44134/TCP                    9d

如果我在入口容器上查看resolv.conf文件,它将返回应有的内容...

╰─$ keti -n ingress-nginx nginx-ingress-controller-c595c6896-klw25 -- cat /etc/resolv.conf                                                                                                                                                                                130 ↵
nameserver 10.245.0.10
search ingress-nginx.svc.cluster.local svc.cluster.local cluster.local
options ndots:5

dig / nslookup / host在该容器上不可用,但是如果我创建一个简单的busybox实例,它将使用相同的配置获取正确的IP:

╰─$ keti busybox -- nslookup web
Server:    10.245.0.10
Address 1: 10.245.0.10 kube-dns.kube-system.svc.cluster.local

Name:      web
Address 1: 10.245.145.213 web.default.svc.cluster.local

任何人都可以给我任何下一步的想法吗?

更新#1

这是web的配置,如注释中所要求。我还在调查为什么我无法使用群集内的忙碌箱直接wget web中的任何内容。

apiVersion: v1
kind: Service
metadata:
  labels:
    io.kompose.service: web
    app: web
  name: web
spec:
  ports:
  - name: "80"
    port: 80
    targetPort: 80
  - name: "443"
    port: 443
    targetPort: 443
  selector:
    io.kompose.service: web
status:
  loadBalancer: {}
---
apiVersion: extensions/v1beta1
kind: Deployment
metadata:
  labels:
    app: web
  name: web
spec:
  replicas: 1
  strategy:
    type: RollingUpdate
  selector:
    matchLabels:
      app: web
  template:
    metadata:
      labels:
        io.kompose.service: web
        app: web
    spec:
      containers:
      - image: <private docker repo>
        imagePullPolicy: IfNotPresent
        name: web
        resources: {}
      imagePullSecrets:
      - name: gcr
status: {}

更新2

根据迈克尔在下面的评论,它为web解析的IP地址是其端点之一:

╰─$ k get endpoints web                                                                                                                                                                                                                                                   130 ↵
NAME      ENDPOINTS                          AGE
web       10.244.93.12:443,10.244.93.12:80   2d

1 个答案:

答案 0 :(得分:1)

因此,所有这些都归结为没有任何端点的php-fpm服务,因为我错误地配置了服务选择器!

一些老鹰眼的读者可能已经发现,我的配置是从docker-compose配置文件(我的开发环境)转换而来的,而我是从那里开始构建的。

问题来了,因为我更改了部署的标签和选择器,但没有更改服务本身。

apiVersion: v1
kind: Service
metadata:
  name: user-api
  labels:
    io.kompose.service: user-api
    app: user-api
spec:
  ports:
    - name: "9000"
      port: 9000
      targetPort: 9000
  selector:
    io.kompose.service: user-api
status:
  loadBalancer: {}
---
apiVersion: extensions/v1beta1
kind: Deployment
metadata:
  labels:
    app: user-api
  name: user-api
spec:
  replicas: 1
  selector:
    matchLabels:
      app: user-api
  template:
    metadata:
      labels:
        app: user-api
    spec:
... etc

您可以看到我仍在使用kompose为我创建的旧选择器io.kompose.service: user-api而不是较新的app: user-api

我遵循@coderanger的建议,而nginx服务正在响应,而php-fpm却没有。

快速浏览Connecting Applications With Services的文档时说:

  

如前所述,服务由一组Pod支持。这些Pod通过端点公开。服务的选择器将被连续评估,结果将被发布到也称为my-nginx的Endpoints对象。

当我同时检查了服务和部署模板的选择器时,发现它们是不同的,现在它们已经匹配,并且一切正常。