Google Cloud ML:使用每夜TF导入错误无模块张量流

时间:2017-12-01 06:11:22

标签: tensorflow tensorflow-gpu google-cloud-ml

我想在谷歌Cloud ML上训练谷歌的NMT模型。 NMT Model

现在我将所有输入数据放入存储桶并下载git存储库。 该模型需要每晚版本的张量流,所以我在setup.py中定义它,当我使用cpu版本tf-nightly == 1.5.0-dev20171115并运行以下命令在GCP本地运行时它可以工作。

在Google上本地培训:

spring.thymeleaf.mode=LEGACYHTML5

现在当我使用带有以下命令的gpu版本时,我在提交作业几分钟后收到此错误消息。

在云上训练

gcloud ml-engine local train --package-path nmt/ \
                             --module-name nmt.nmt \
                             -- --src=en --tgt=de \
                             --hparams_path=$HPARAMAS_PATH \
                             --out_dir=$OUTPUT_DIR \
                             --vocab_prefix=$VOCAB_PREFIX \
                             --train_prefix=$TRAIN_PREFIX \
                             --dev_prefix=$DEV_PREFIX \
                             --test_prefix=$TEST_PREFIX

错误: import tensorflow as tf ImportError:没有名为tensorflow的模块

setup.py:

gcloud ml-engine jobs submit training $JOB_NAME \
                             --runtime-version 1.2 \
                             --job-dir $JOB_DIR \
                             --package-path nmt/ \
                             --module-name nmt.nmt \
                             --scale-tier BAISC_GPU \
                             --region $REGION \
                             -- --src=en --tgt=de \
                             --hparams_path=$HPARAMAS_PATH \
                             --out_dir=$OUTPUT_DIR \
                             --vocab_prefix=$VOCAB_PREFIX \
                             --train_prefix=$TRAIN_PREFIX \
                             --dev_prefix=$DEV_PREFIX \
                             --test_prefix=$TEST_PREFIX

提前谢谢大家 马库斯

更新

我找到了一张纸条 GCP docs 注意:使用TensorFlow版本1.3+的培训仅限于CPU。有关更新,请参阅Cloud ML Engine发行说明。

所以它似乎目前不起作用我认为我必须使用计算引擎。

或者是否有任何破解工作?

但是,谢谢你的帮助

1 个答案:

答案 0 :(得分:0)

TensorFlow 1.5可能需要更新版本的CUDA(即CUDA 9),但安装的版本CloudML Engine是CUDA 8.您是否可以尝试使用TensorFlow 1.4,它适用于CUDA 8?请告诉我们1.4是否适合您,或通过cloudml-feedback@google.com向我们发送电子邮件