我想设置一个雷集群,以便在AWS上的4 gpu上使用Rtune。但是每个GPU都属于我们团队的不同成员。我一直在寻找可用的资源来寻找答案,却一无所获。帮助吗?
答案 0 :(得分:0)
为了使用跨多个AWS账户的实例启动Ray集群,您需要确保AWS实例可以通过相关端口相互通信。为此,您将需要修改实例的AWS安全组(尽管请确保不要打开通往整个世界的端口)。
您可以通过头节点上的--redis-port
,--redis-shard-ports
,--object-manager-port
和--node-manager-port
和ray start
到--object-manager-port
来选择需要哪些端口{1}}和非头节点上的--node-manager-port
。参见relevant documentation。
但是,您尝试执行的操作听起来有些复杂。如果可能的话,使用单个帐户会容易得多,在这种情况下,您可以使用Ray autoscaler。