我试图在Cloud ML Engine上使用TPU,但是我对如何提供tpu
期望的TPUClusterResolver
参数感到困惑。
这是我正在使用的环境:
--python-version 3.5 \
--runtime-version 1.12 \
--region us-central1 \
--scale-tier BASIC_TPU
作业因以下原因而崩溃:
ValueError: Please provide a TPU Name to connect to.
作为一个单独的问题-ML引擎似乎在自己的工作上单独添加了--master grpc://10.129.152.2:8470
,这也使工作崩溃。作为解决方法,我只是在代码中添加了未使用的master标志。
答案 0 :(得分:0)
这是运行时1.11和1.12的已知问题,已修复。现在,该服务不会将--master
附加到您的培训应用程序中。您应该继续使用TpuClusterResolver
。