我想在谷歌Cloud ML上训练谷歌的NMT模型。 NMT Model
现在我将所有输入数据放入存储桶并下载git存储库。 该模型需要每晚版本的张量流,所以我在setup.py中定义它,当我使用cpu版本tf-nightly == 1.5.0-dev20171115并运行以下命令在GCP本地运行时它可以工作。
spring.thymeleaf.mode=LEGACYHTML5
现在当我使用带有以下命令的gpu版本时,我在提交作业几分钟后收到此错误消息。
gcloud ml-engine local train --package-path nmt/ \
--module-name nmt.nmt \
-- --src=en --tgt=de \
--hparams_path=$HPARAMAS_PATH \
--out_dir=$OUTPUT_DIR \
--vocab_prefix=$VOCAB_PREFIX \
--train_prefix=$TRAIN_PREFIX \
--dev_prefix=$DEV_PREFIX \
--test_prefix=$TEST_PREFIX
错误: import tensorflow as tf ImportError:没有名为tensorflow的模块
setup.py:
gcloud ml-engine jobs submit training $JOB_NAME \
--runtime-version 1.2 \
--job-dir $JOB_DIR \
--package-path nmt/ \
--module-name nmt.nmt \
--scale-tier BAISC_GPU \
--region $REGION \
-- --src=en --tgt=de \
--hparams_path=$HPARAMAS_PATH \
--out_dir=$OUTPUT_DIR \
--vocab_prefix=$VOCAB_PREFIX \
--train_prefix=$TRAIN_PREFIX \
--dev_prefix=$DEV_PREFIX \
--test_prefix=$TEST_PREFIX
提前谢谢大家 马库斯
我找到了一张纸条 GCP docs 注意:使用TensorFlow版本1.3+的培训仅限于CPU。有关更新,请参阅Cloud ML Engine发行说明。
所以它似乎目前不起作用我认为我必须使用计算引擎。
或者是否有任何破解工作?
但是,谢谢你的帮助
答案 0 :(得分:0)
TensorFlow 1.5可能需要更新版本的CUDA(即CUDA 9),但安装的版本CloudML Engine是CUDA 8.您是否可以尝试使用TensorFlow 1.4,它适用于CUDA 8?请告诉我们1.4是否适合您,或通过cloudml-feedback@google.com向我们发送电子邮件