在Google Cloud上启动Ray群集时出错

时间:2019-03-13 19:09:16

标签: ray

我很难在Google云计算上启动集群。

  

线程Thread-1中的异常:   追溯(最近一次通话):     _bootstrap_inner中的文件“ /home/usr/anaconda3/envs/tf-gpu/lib/python3.6/threading.py”,行916       self.run()     运行中的文件“ /home/usr/anaconda3/envs/tf-gpu/lib/python3.6/site-packages/ray/autoscaler/updater.py”,第143行       提高e     运行中的文件“ /home/usr/anaconda3/envs/tf-gpu/lib/python3.6/site-packages/ray/autoscaler/updater.py”,第132行       self.do_update()     在do_update中的文件“ /home/usr/anaconda3/envs/tf-gpu/lib/python3.6/site-packages/ray/autoscaler/updater.py”,第228行       self.ssh_cmd(cmd,redirect = open(“ / dev / null”,“ w”))     ssh_cmd中的文件“ /home/usr/anaconda3/envs/tf-gpu/lib/python3.6/site-packages/ray/autoscaler/updater.py”,行291       stderr = redirect或sys.stderr)     在check_call中的文件“ /home/usr/anaconda3/envs/tf-gpu/lib/python3.6/subprocess.py”,第311行       提高CalledProcessError(retcode,cmd)   subprocess.CalledProcessError:命令'['ssh','-i','/home/usr/.ssh/ray-autoscaler_gcp_us-east1_test-234004_ubuntu.pem','-o','ConnectTimeout = 120s','-o ','StrictHostKeyChecking =否','-o','ControlMaster = auto','-o','ControlPath = / tmp / ray_ssh_sockets /%C','-o','ControlPersist = 5m','ubuntu @ 35.185.70.192',“ bash --login -c -i'true &&源〜/ .bashrc &&导出OMP_NUM_THREADS = 1 PYTHONWARNINGS =忽略&& sudo安装-o丢弃,默认为/ dev / sdb / data'”]'返回非-零退出状态32。

     

2019-03-13 14:57:24,237错误命令.py:260-   get_or_create_head_node:更新35.185.70.192失败

头节点已正确启动,我可以毫无问题地将其插入。当我尝试在其上运行ray命令时,它会产生以下错误:

  

2019-03-13 19:07:05,246警告worker.py:1249-驱动程序需要连接的某些进程尚未注册   与Redis纠缠不清,因此请重试。您是否已在此节点上运行“ ray start”?

非常感谢您的帮助。谢谢!

0 个答案:

没有答案