我正在尝试为Kubernetes备份安装和配置Velero。我已经遵循link在我的GKE集群中对其进行了配置。安装正常,但是velero无法正常工作。
我正在使用Google Cloud Shell运行我的所有命令(我已经在我的Google Cloud Shell中安装并配置了velero客户端)
在进一步检查velero部署和velero吊舱时,我发现它无法从docker存储库中提取映像。
kubectl get pods -n velero
NAME READY STATUS RESTARTS AGE
velero-5489b955f6-kqb7z 0/1 Init:ErrImagePull 0 20s
velero pod(kubectl描述pod)出错(为便于阅读,编辑了输出-仅在下面显示相关信息)
Events:
Type Reason Age From Message
---- ------ ---- ---- -------
Normal Scheduled 38s default-scheduler Successfully assigned velero/velero-5489b955f6-kqb7z to gke-gke-cluster1-default-pool-a354fba3-8674
Warning Failed 22s kubelet, gke-gke-cluster1-default-pool-a354fba3-8674 Failed to pull image "velero/velero-plugin-for-gcp:v1.1.0": rpc error: code = Unknown desc = Error response from daemon: Get https://registry-1.docker.io/v2/: net/http: request canceled while waiting for connection (Client.Timeout exceeded while awaiting headers)
Warning Failed 22s kubelet, gke-gke-cluster1-default-pool-a354fba3-8674 Error: ErrImagePull
Normal BackOff 21s kubelet, gke-gke-cluster1-default-pool-a354fba3-8674 Back-off pulling image "velero/velero-plugin-for-gcp:v1.1.0"
Warning Failed 21s kubelet, gke-gke-cluster1-default-pool-a354fba3-8674 Error: ImagePullBackOff
Normal Pulling 8s (x2 over 37s) kubelet, gke-gke-cluster1-default-pool-a354fba3-8674 Pulling image "velero/velero-plugin-for-gcp:v1.1.0"
用于安装velero的命令:(某些值作为变量给出)
velero install \
--provider gcp \
--plugins velero/velero-plugin-for-gcp:v1.1.0 \
--bucket $storagebucket \
--secret-file ~/velero-backup-storage-sa-key.json
Velero版本
velero version
Client:
Version: v1.4.2
Git commit: 56a08a4d695d893f0863f697c2f926e27d70c0c5
<error getting server version: timed out waiting for server status request to be processed>
GKE版本
v1.15.12-gke.2
答案 0 :(得分:4)
这不是私有集群吗? – 31分钟前mario
@mario这是一个私有集群,但是我可以部署其他服务而没有任何问题(例如:我已经成功部署了nginx)– 15分钟前的Sreesan
好吧,这是know limitation中的GKE Private Clusters。如您在documentation中所读:
无法从公共Docker Hub提取图像
症状
集群中运行的Pod在
kubectl describe
中显示警告,例如Failed to pull image: rpc error: code = Unknown desc = Error response from daemon: Get https://registry-1.docker.io/v2/: net/http: request canceled while waiting for connection (Client.Timeout exceeded while awaiting headers)
潜在原因
私有集群中的节点没有对公众的出站访问权限 互联网。他们对Google API和服务的访问权限有限, 包括容器注册表。
分辨率
您无法直接从Docker Hub获取图像。而是使用图片 托管在Container Registry上。请注意,虽然Container Registry的 Docker Hub mirror 可从私有群集访问,但不应独占 依靠。镜像只是一个缓存,因此图像会定期 删除后,私有集群将无法使用Docker Hub。
您还可以将其与this答案进行比较。
您可以通过简单的实验轻松地对其进行验证。尝试运行两个不同的nginx部署。第一个基于图像nginx
(等于nginx:latest
),第二个基于nginx:1.14.2
。
虽然第一种情况是完全可行的,因为可以从私有群集中访问的 Container Registry的Docker Hub镜像提取nginx:latest
映像,但是任何尝试提取{{1} }将失败,您将在nginx:1.14.2
事件中看到该错误。发生这种情况是因为 kubelet 无法在 GCR 中找到该版本的映像,并且它试图将其从公共Docker注册表(Pod
)中提取出来。 私有群集中是不可能的。 “镜像只是一个缓存,因此会定期删除图像,并且私有集群无法回退到Docker Hub。” -您可以在文档中阅读。
如果您仍然有疑问,只需https://registry-1.docker.io/v2/
进入您的节点并尝试运行以下命令:
ssh
虽然第一个可以完美运行,但第二个最终会失败:
curl https://cloud.google.com/container-registry/
curl https://registry-1.docker.io/v2/
原因? -“私有集群中的节点没有对公共Internet的出站访问。”
您可以搜索 GCR here中当前可用的内容。
在许多情况下,如果您未指定确切的版本(默认使用curl: (7) Failed to connect to registry-1.docker.io port 443: Connection timed out
标签),则应该可以获得所需的图像。虽然它可以帮助latest
,但遗憾的是,velero/velero-plugin-for-gcp的版本目前在Google Container Registry的Docker Hub镜像中不可用。
Cloud NAT似乎是适用于您的情况的唯一合理的解决方案。