无法运行tensorflow分布式MNIST测试

时间:2016-06-09 15:06:02

标签: tensorflow distributed deep-learning

我通过从源码构建安装了tensorflow 0.8。 我使用AWS EC2 g2.8xlarge实例,它有4个GPU。 我试着运行tensorflow分布式mnist测试,代码在这里: https://github.com/tensorflow/tensorflow/blob/master/tensorflow/tools/dist_test/scripts/dist_mnist_test.sh

我的剧本:

bash dist_mnist_test.sh "grpc://localhost:2223 grpc://localhost:2224"

我收到了这条消息:

E0609 14:53:07.430440599   62872 tcp_client_posix.c:173]     failed to connect to 'ipv4:127.0.0.1:2223': socket error: connection refused
E0609 14:53:07.445297934   62873 tcp_client_posix.c:173]     failed to connect to 'ipv4:127.0.0.1:2224': socket error: connection refused

任何人都知道这里有什么问题吗?非常感谢!

2 个答案:

答案 0 :(得分:2)

此脚本不会独立运行。特别是,它希望您创建一个TensorFlow集群,其中工作人员在运行脚本之前在每个地址上运行。 create_tf_cluster.sh脚本可以使用Kubernetes设置这样的集群。 dist_test.sh脚本端到端地运行这些脚本。

请参阅my answer您的其他问题,其中包含在分布式TensorFlow上运行MNIST的建议脚本。

答案 1 :(得分:0)

我怀疑这里存在网络问题。我将采取的第一个调试步骤是确保使用像netstat这样的工具实际收听套接字2223和2224。以下是如何做到这一点的一般描述: https://askubuntu.com/questions/278448/how-to-know-what-program-is-listening-on-a-given-port

如果可行,请尝试使用telnet手动连接到套接字,以确保网络寻址正常工作。