Question

我已使用带有"google_container_cluster"块的地形资源private_cluster_config启动了私有 GKE cluster。

我添加了master_authorized_networks_config，以允许我在GKE的授权网络中使用自己的IP地址。

并且我已经使用地形资源"kubernetes_namespace"添加了k8s namespace。

我还正确设置了所有google，kubernetes提供程序，k8s令牌，cluster_ca_certificate等，并且名称空间确实是由该地形提供的。

resource "google_container_cluster" "k8s_cluster" {
  # .....
  # .....
  private_cluster_config {
    enable_private_nodes = true
    enable_private_endpoint = false
    master_ipv4_cidr_block = "172.16.0.0/28"
  }
  ip_allocation_policy { } # enables VPC-native
  master_authorized_networks_config {
    cidr_blocks {
      {
        cidr_block = "0.0.0.0/0"
        display_name = "World"
      }
    }
  }
  # .....
  # .....
}

data "google_client_config" "google_client" {}

data "google_container_cluster" "k8s_cluster" {
  name     = google_container_cluster.k8s_cluster.name
  location = var.location
}

provider "kubernetes" {
  # following this example https://www.terraform.io/docs/providers/google/d/datasource_client_config.html#example-usage-configure-kubernetes-provider-with-oauth2-access-token
  version = "1.11.1"
  load_config_file = false
  host = google_container_cluster.k8s_cluster.endpoint
  token = data.google_client_config.google_client.access_token
  cluster_ca_certificate = base64decode(
    data.google_container_cluster.k8s_cluster.master_auth.0.cluster_ca_certificate
  )
}

resource "kubernetes_namespace" "namespaces" {
  depends_on = [google_container_node_pool.node_pool]
  for_each = ["my-ns"]
  metadata {
    name = each.value
  }
}

然后我运行terraform apply并创建好命名空间✅✅✅

kubernetes_namespace.namespaces["my-ns"]: Creating...
kubernetes_namespace.namespaces["my-ns"]: Creation complete after 1s [id=my-ns]

Apply complete! Resources: 1 added, 0 changed, 0 destroyed.

但是，当我再次运行terraform apply或terraform plan并且terraform试图刷新命名空间资源时，

data.google_container_cluster.k8s_cluster: Refreshing state...
kubernetes_namespace.namespaces["my-ns"]: Refreshing state... [id=my-ns]

它间歇性地抛出以下错误。 ❌❌

Error: Get http://localhost/api/v1/namespaces/my-ns: dial tcp 127.0.0.1:80: connect: connection refused

有时会过去，有时会失败-间歇地。

您会在哪里建议我研究一下此间歇性错误？

Answer 1

这可能与k8s上下文有关。您应该创建专用的唯一k8s上下文来访问您的GKE集群，并在terraform provider中指定它。

provider "kubernetes" {
  config_context = var.K8S_CONTEXT
  version        = "1.10"
}

选中kubectl config get-contexts以获取所有k8s上下文的列表。

Terraform资源对于自动创建GKE的上下文可能有用

resource "null_resource" "local_k8s_context" {
  depends_on = [google_container_cluster.gke_cluster_0]
  provisioner "local-exec" {
    command = "gcloud container clusters get-credentials ${var.GKE_CLUSTER_NAME} --project=${var.GCP_PROJECT_ID} --zone=${var.GKE_MASTER_REGION} && ( kubectl config delete-context ${var.K8S_CONTEXT}; kubectl config rename-context gke_${var.GCP_PROJECT_ID}_${var.GKE_MASTER_REGION}_${var.GKE_CLUSTER_NAME} ${var.K8S_CONTEXT} )"
  }
}

Answer 2

我认为您可以在https://github.com/terraform-providers/terraform-provider-google/issues上报告问题，这是报告Terraform和GPC问题的好地方。

致谢。

Answer 3

就我而言，问题的根源是this：

Terraform读取配置文件时的唯一限制是导入提供程序配置不得依赖于非变量输入

在您的情况下，您的kubernetes provider块具有多个配置选项，这些配置选项是变量：

  host = google_container_cluster.k8s_cluster.endpoint
  token = data.google_client_config.google_client.access_token

我的解决方法是创建一个kubeconfig.yaml文件，并使用以下内容临时替换提供程序配置：

provider "kubernetes" {
  config_path = "kubeconfig.yaml"
}

这使我可以运行导入，然后恢复了以前的基于变量的配置。

Terraform kubernetes命令在私有GKE集群上失败

3 个答案: