我通过从源码构建安装了tensorflow 0.8。 我使用AWS EC2 g2.8xlarge实例,它有4个GPU。 我试着运行tensorflow分布式mnist测试,代码在这里: https://github.com/tensorflow/tensorflow/blob/master/tensorflow/tools/dist_test/scripts/dist_mnist_test.sh
我的剧本:
bash dist_mnist_test.sh "grpc://localhost:2223 grpc://localhost:2224"
我收到了这条消息:
E0609 14:53:07.430440599 62872 tcp_client_posix.c:173] failed to connect to 'ipv4:127.0.0.1:2223': socket error: connection refused
E0609 14:53:07.445297934 62873 tcp_client_posix.c:173] failed to connect to 'ipv4:127.0.0.1:2224': socket error: connection refused
任何人都知道这里有什么问题吗?非常感谢!
答案 0 :(得分:2)
此脚本不会独立运行。特别是,它希望您创建一个TensorFlow集群,其中工作人员在运行脚本之前在每个地址上运行。 create_tf_cluster.sh
脚本可以使用Kubernetes设置这样的集群。 dist_test.sh
脚本端到端地运行这些脚本。
请参阅my answer您的其他问题,其中包含在分布式TensorFlow上运行MNIST的建议脚本。
答案 1 :(得分:0)
我怀疑这里存在网络问题。我将采取的第一个调试步骤是确保使用像netstat这样的工具实际收听套接字2223和2224。以下是如何做到这一点的一般描述: https://askubuntu.com/questions/278448/how-to-know-what-program-is-listening-on-a-given-port
如果可行,请尝试使用telnet手动连接到套接字,以确保网络寻址正常工作。