Question

我有一个通过kubeadm安装kubernetes集群的过程，它可以多次工作。

由于某种原因，我现在安装了集群，并且由于某种原因，节点无法通信。

问题以两种方式反映出来：有时群集无法解析全局dns记录，例如mirrorlist.centos.org 有时来自特定节点的一个Pod无法连接到不同节点中的另一个Pod

我的kubernetes版本是1.9.2 我的主机是centOS 7.4 我在版本0.9.1中将法兰绒用作cni插件我的集群基于AWS

到目前为止，

mt调试是：

kubectl get nodes -o jsonpath='{.items[*].spec.podCIDR}'-查看子网 10.244.0.0/24 10.244.1.0/24

我尝试将配置添加到kubedns（即使我的所有其他集群都需要），例如https://kubernetes.io/docs/tasks/administer-cluster/dns-custom-nameservers/#configure-stub-domain-and-upstream-dns-servers
1. 我尝试将busybox和nslookup安装到集群kubernetes.default，它仅适用于busybox与dns在同一节点上（尝试了此链接https://kubernetes.io/docs/tasks/administer-cluster/dns-debugging-resolution/

我什至尝试从其他正在运行的环境中创建AMI，并将其作为该节点的节点部署，但仍然失败。

我尝试检查是否缺少某些端口，所以我甚至打开了节点之间的所有端口

我也禁用了iptables和防火墙以及所有节点，只是为了确保这不是原因

没有任何帮助。

请提供任何提示

编辑：我添加了法兰绒配置：

---
kind: ClusterRole
apiVersion: rbac.authorization.k8s.io/v1beta1
metadata:
  name: flannel
rules:
  - apiGroups:
      - ""
    resources:
      - pods
    verbs:
      - get
  - apiGroups:
      - ""
    resources:
      - nodes
    verbs:
      - list
      - watch
  - apiGroups:
      - ""
    resources:
      - nodes/status
    verbs:
      - patch
---
kind: ClusterRoleBinding
apiVersion: rbac.authorization.k8s.io/v1beta1
metadata:
  name: flannel
roleRef:
  apiGroup: rbac.authorization.k8s.io
  kind: ClusterRole
  name: flannel
subjects:
- kind: ServiceAccount
  name: flannel
  namespace: kube-system
---
apiVersion: v1
kind: ServiceAccount
metadata:
  name: flannel
  namespace: kube-system
---
kind: ConfigMap
apiVersion: v1
metadata:
  name: kube-flannel-cfg
  namespace: kube-system
  labels:
    tier: node
    app: flannel
data:
  cni-conf.json: |
    {
      "name": "cbr0",
      "type": "flannel",
      "delegate": {
        "isDefaultGateway": true
      }
    }
  net-conf.json: |
    {
      "Network": "10.244.0.0/16",
      "Backend": {
        "Type": "vxlan"
      }
    }
---
apiVersion: extensions/v1beta1
kind: DaemonSet
metadata:
  name: kube-flannel-ds
  namespace: kube-system
  labels:
    tier: node
    app: flannel
spec:
  template:
    metadata:
      labels:
        tier: node
        app: flannel
    spec:
      hostNetwork: true
      nodeSelector:
        beta.kubernetes.io/arch: amd64
      tolerations:
      - key: node-role.kubernetes.io/master
        operator: Exists
        effect: NoSchedule
      serviceAccountName: flannel
      initContainers:
      - name: install-cni
        image: quay.io/coreos/flannel:v0.9.1-amd64
        command:
        - cp
        args:
        - -f
        - /etc/kube-flannel/cni-conf.json
        - /etc/cni/net.d/10-flannel.conf
        volumeMounts:
        - name: cni
          mountPath: /etc/cni/net.d
        - name: flannel-cfg
          mountPath: /etc/kube-flannel/
      containers:
      - name: kube-flannel
        image: quay.io/coreos/flannel:v0.9.1-amd64
        command: [ "/opt/bin/flanneld", "--ip-masq", "--kube-subnet-mgr" ]
        securityContext:
          privileged: true
        env:
        - name: POD_NAME
          valueFrom:
            fieldRef:
              fieldPath: metadata.name
        - name: POD_NAMESPACE
          valueFrom:
            fieldRef:
              fieldPath: metadata.namespace
        volumeMounts:
        - name: run
          mountPath: /run
        - name: flannel-cfg
          mountPath: /etc/kube-flannel/
      volumes:
        - name: run
          hostPath:
            path: /run
        - name: cni
          hostPath:
            path: /etc/cni/net.d
        - name: flannel-cfg
          configMap:
            name: kube-flannel-cfg

Answer 1

问题在于AWS机器不是我提供的，而提供机器的团队则确保打开了所有内部流量。

在使用nmap进行大量调试之后，我发现UDP端口未打开，并且由于法兰绒需要UDP流量，因此通信无法正常工作。

打开UDP后，问题得到解决。

kuberentes通信无法跨节点工作

1 个答案: