kubeflow-一段时间生成后,jupyter荚卡住了

时间:2019-03-27 07:28:07

标签: kubernetes jupyter-notebook kubeflow

我是Kubernetes世界的新手。我正在尝试在群集中部署jupyter notebook。我已经参考官方文档创建了kubernetes集群。笔记本电脑说,一旦生成完成,它将重定向到主页。但是Jupyter Pod在某个时间产卵后被卡住了。

jupyter pod got stuck after spawning sometime

我在GitHub中提到了类似的问题,但找不到答案。引用的链接为Github Link

从该问题的评论中可以看出,jupyter集线器是否使用永久磁盘。我运行了这些命令,似乎连接了永久磁盘。

  

kubectl -n默认获取po,svc,deploy,pv,pvc -o宽

    NAME                                 READY   STATUS      RESTARTS   AGE   IP          NODE                                             NOMINATED NODE
pod/deploy-ml-pipeline-csnx4-j556r   0/1     Completed   0          30m   10.60.1.6   gke-churnprediction-default-pool-142b8f7d-d4kv   <none>

NAME                 TYPE        CLUSTER-IP    EXTERNAL-IP   PORT(S)   AGE   SELECTOR
service/kubernetes   ClusterIP   10.63.240.1   <none>        443/TCP   32m   <none>

NAME                                                        CAPACITY   ACCESS MODES   RECLAIM POLICY   STATUS   CLAIM                     STORAGECLASS   REASON   AGE
persistentvolume/pvc-57af1a5e-505d-11e9-9b66-42010a800130   10Gi       RWO            Delete           Bound    kubeflow/vizier-db        standard                27m
persistentvolume/pvc-70874d08-505d-11e9-9b66-42010a800130   10Gi       RWO            Delete           Bound    kubeflow/minio-pv-claim   standard                26m
persistentvolume/pvc-70b1712e-505d-11e9-9b66-42010a800130   10Gi       RWO            Delete           Bound    kubeflow/mysql-pv-claim   standard                26m
persistentvolume/pvc-86d45ad1-505d-11e9-9b66-42010a800130   10Gi       RWO            Delete           Bound    kubeflow/claim-madhi      standard                25m

这是上述命令的结果,据我所知,该命令已成功连接永久磁盘!我真的不知道它在内部如何工作。因此,我无法找出问题所在。可以解释问题或提供kubernetes架构链接吗?理解kubernetes背后的核心概念将对我有所帮助。

下面是用于获取有关pod的描述的命令

  

kubectl描述pod pod_name

enter image description here

获取yaml文件

  

kubectl获取pod pod_name -o yaml

enter image description here enter image description here

1 个答案:

答案 0 :(得分:3)

我找到了解决方案,但是我不知道这是确切的解决方案还是存在问题。根据评论,吊舱或其他配置文件没有问题。我有点以为这可能是本地主机问题。因此,我尝试将端口从8085更改为8081,然后重新运行 start_ui.sh 脚本。产生的错误消失了,它将我重定向到了juypter工作目录。

kubectl port-forward -n ${NAMESPACE} $(kubectl get pods -n ${NAMESPACE} --selector=service=ambassador -o jsonpath='{.items[0].metadata.name}') 8081:80

如果您想避免所有这些问题,那么有效的方法是在 endpoints (而不是localhost)中运行kubeflow,从而消除了所有这些问题。要在端点上查看仪表板,您需要在创建集群时首先设置IAM访问权限。