我很难在Google云计算上启动集群。
线程Thread-1中的异常: 追溯(最近一次通话): _bootstrap_inner中的文件“ /home/usr/anaconda3/envs/tf-gpu/lib/python3.6/threading.py”,行916 self.run() 运行中的文件“ /home/usr/anaconda3/envs/tf-gpu/lib/python3.6/site-packages/ray/autoscaler/updater.py”,第143行 提高e 运行中的文件“ /home/usr/anaconda3/envs/tf-gpu/lib/python3.6/site-packages/ray/autoscaler/updater.py”,第132行 self.do_update() 在do_update中的文件“ /home/usr/anaconda3/envs/tf-gpu/lib/python3.6/site-packages/ray/autoscaler/updater.py”,第228行 self.ssh_cmd(cmd,redirect = open(“ / dev / null”,“ w”)) ssh_cmd中的文件“ /home/usr/anaconda3/envs/tf-gpu/lib/python3.6/site-packages/ray/autoscaler/updater.py”,行291 stderr = redirect或sys.stderr) 在check_call中的文件“ /home/usr/anaconda3/envs/tf-gpu/lib/python3.6/subprocess.py”,第311行 提高CalledProcessError(retcode,cmd) subprocess.CalledProcessError:命令'['ssh','-i','/home/usr/.ssh/ray-autoscaler_gcp_us-east1_test-234004_ubuntu.pem','-o','ConnectTimeout = 120s','-o ','StrictHostKeyChecking =否','-o','ControlMaster = auto','-o','ControlPath = / tmp / ray_ssh_sockets /%C','-o','ControlPersist = 5m','ubuntu @ 35.185.70.192',“ bash --login -c -i'true &&源〜/ .bashrc &&导出OMP_NUM_THREADS = 1 PYTHONWARNINGS =忽略&& sudo安装-o丢弃,默认为/ dev / sdb / data'”]'返回非-零退出状态32。
2019-03-13 14:57:24,237错误命令.py:260- get_or_create_head_node:更新35.185.70.192失败
头节点已正确启动,我可以毫无问题地将其插入。当我尝试在其上运行ray命令时,它会产生以下错误:
2019-03-13 19:07:05,246警告worker.py:1249-驱动程序需要连接的某些进程尚未注册 与Redis纠缠不清,因此请重试。您是否已在此节点上运行“ ray start”?
非常感谢您的帮助。谢谢!