我正在使用gcloud构建一个Docker容器来提交ML训练作业 - runnable实际上是一个Python程序,gcloud正在通过 subprocess.check_output 执行。在Docker容器外运行程序工作得很好,这让我想知道是否有一些未安装的依赖项,但gcloud根本不输出任何有用的日志。
在运行 gcloud ml-engine作业提交培训时,可执行文件返回退出状态1 ,只需输出内部错误。 Google云端控制台上提供的日志始终是"验证工作要求的5个条目..." ,没有进一步的信息。
Docker容器具有以下已安装的依赖项(某些与Google Cloud ML无关,但程序中的其他功能使用这些依赖项):
通过apt-get: python,python-pip,python-dev,libmysqlclient-dev,curl
通过pip install: flask,MySQL-python,configparser,pandas,tensorflow
通过下载SDK并通过命令行安装它来安装gcloud工具:
RUN curl https://dl.google.com/dl/cloudsdk/release/google-cloud-sdk.tar.gz > /tmp/google-cloud-sdk.tar.gz
RUN mkdir -p /usr/local/gcloud
RUN tar -C /usr/local/gcloud -xvf /tmp/google-cloud-sdk.tar.gz
RUN /usr/local/gcloud/google-cloud-sdk/install.sh
ENV PATH $PATH:/usr/local/gcloud/google-cloud-sdk/bin
帐户凭据通过
设置RUN gcloud auth activate-service-account --key-file path-to-keyfile-in-docker-container
RUN gsutil version -l
上一次 gsutil版本命令几乎只是为了确保SDK安装正常运行。
有没有人知道可能发生的事情或如何进一步调试可能导致gcloud上出现内部错误的内容?
提前致谢! :)
答案 0 :(得分:0)
请确保所有parameters设置正确,并确保您拥有all your dependencies uploaded and packaged properly。
如果一切都完成了,你仍然无法完成这项工作,那么你需要的不仅仅是"内部错误"找出问题所在。请联系Google Cloud Platform支持或在Public Issue Tracker上提交错误以获得进一步的帮助。