我已经设置了Kubernetes集群,并且在其中设置了一个入口规则,以将流量转发到Web服务器。
---
apiVersion: extensions/v1beta1
kind: Ingress
metadata:
name: alpha-ingress
annotations:
kubernetes.io/ingress.class: nginx
certmanager.k8s.io/cluster-issuer: letsencrypt-prod
spec:
tls:
- hosts:
- alpha.example.com
secretName: letsencrypt-prod
rules:
- host: alpha.example.com
http:
paths:
- backend:
serviceName: web
servicePort: 80
最终,浏览器因504错误而超时,在Ingress日志中,我看到
2019/01/27 23:45:38 [错误] 41#41:* 4943上游超时(110: 连接超时),同时从上游读取响应标头, 客户:10.131.24.163,服务器:alpha.example.com,请求:“获取/ HTTP / 2.0”,上游:“ http://10.244.93.12:80/”,主机: “ alpha.example.com”
该IP地址上没有任何服务...
╰─$ kgs --all-namespaces 130 ↵
NAMESPACE NAME TYPE CLUSTER-IP EXTERNAL-IP PORT(S) AGE
default database ClusterIP 10.245.181.187 <none> 5432/TCP 4d8h
default kubernetes ClusterIP 10.245.0.1 <none> 443/TCP 9d
default user-api ClusterIP 10.245.41.8 <none> 9000/TCP 4d8h
default web ClusterIP 10.245.145.213 <none> 80/TCP,443/TCP 34h
ingress-nginx ingress-nginx LoadBalancer 10.245.25.107 <external-ip> 80:31680/TCP,443:32324/TCP 50m
kube-system grafana ClusterIP 10.245.81.91 <none> 80/TCP 6d1h
kube-system kube-dns ClusterIP 10.245.0.10 <none> 53/UDP,53/TCP,9153/TCP 9d
kube-system prometheus-alertmanager ClusterIP 10.245.228.165 <none> 80/TCP 6d2h
kube-system prometheus-kube-state-metrics ClusterIP None <none> 80/TCP 6d2h
kube-system prometheus-node-exporter ClusterIP None <none> 9100/TCP 6d2h
kube-system prometheus-pushgateway ClusterIP 10.245.147.195 <none> 9091/TCP 6d2h
kube-system prometheus-server ClusterIP 10.245.202.186 <none> 80/TCP 6d2h
kube-system tiller-deploy ClusterIP 10.245.11.85 <none> 44134/TCP 9d
如果我在入口容器上查看resolv.conf文件,它将返回应有的内容...
╰─$ keti -n ingress-nginx nginx-ingress-controller-c595c6896-klw25 -- cat /etc/resolv.conf 130 ↵
nameserver 10.245.0.10
search ingress-nginx.svc.cluster.local svc.cluster.local cluster.local
options ndots:5
dig / nslookup / host在该容器上不可用,但是如果我创建一个简单的busybox实例,它将使用相同的配置获取正确的IP:
╰─$ keti busybox -- nslookup web
Server: 10.245.0.10
Address 1: 10.245.0.10 kube-dns.kube-system.svc.cluster.local
Name: web
Address 1: 10.245.145.213 web.default.svc.cluster.local
任何人都可以给我任何下一步的想法吗?
更新#1
这是web
的配置,如注释中所要求。我还在调查为什么我无法使用群集内的忙碌箱直接wget
web
中的任何内容。
apiVersion: v1
kind: Service
metadata:
labels:
io.kompose.service: web
app: web
name: web
spec:
ports:
- name: "80"
port: 80
targetPort: 80
- name: "443"
port: 443
targetPort: 443
selector:
io.kompose.service: web
status:
loadBalancer: {}
---
apiVersion: extensions/v1beta1
kind: Deployment
metadata:
labels:
app: web
name: web
spec:
replicas: 1
strategy:
type: RollingUpdate
selector:
matchLabels:
app: web
template:
metadata:
labels:
io.kompose.service: web
app: web
spec:
containers:
- image: <private docker repo>
imagePullPolicy: IfNotPresent
name: web
resources: {}
imagePullSecrets:
- name: gcr
status: {}
更新2
根据迈克尔在下面的评论,它为web
解析的IP地址是其端点之一:
╰─$ k get endpoints web 130 ↵
NAME ENDPOINTS AGE
web 10.244.93.12:443,10.244.93.12:80 2d
答案 0 :(得分:1)
因此,所有这些都归结为没有任何端点的php-fpm服务,因为我错误地配置了服务选择器!
一些老鹰眼的读者可能已经发现,我的配置是从docker-compose配置文件(我的开发环境)转换而来的,而我是从那里开始构建的。
问题来了,因为我更改了部署的标签和选择器,但没有更改服务本身。
apiVersion: v1
kind: Service
metadata:
name: user-api
labels:
io.kompose.service: user-api
app: user-api
spec:
ports:
- name: "9000"
port: 9000
targetPort: 9000
selector:
io.kompose.service: user-api
status:
loadBalancer: {}
---
apiVersion: extensions/v1beta1
kind: Deployment
metadata:
labels:
app: user-api
name: user-api
spec:
replicas: 1
selector:
matchLabels:
app: user-api
template:
metadata:
labels:
app: user-api
spec:
... etc
您可以看到我仍在使用kompose为我创建的旧选择器io.kompose.service: user-api
而不是较新的app: user-api
我遵循@coderanger的建议,而nginx服务正在响应,而php-fpm却没有。
快速浏览Connecting Applications With Services的文档时说:
如前所述,服务由一组Pod支持。这些Pod通过端点公开。服务的选择器将被连续评估,结果将被发布到也称为my-nginx的Endpoints对象。
当我同时检查了服务和部署模板的选择器时,发现它们是不同的,现在它们已经匹配,并且一切正常。