之前我使用Spark并且非常熟悉Spark WebUI(localhost:8080)。我能够检查一个工人是否已连接到主人,连接了多少工人?每个工人使用的RAM量等等。
Tensorflow使用gRPC进行分布式计算。 RAM和GPU内存对于分布式计算至关重要。 假设第一个参数服务器/任务ID为主服务器且工作者为从服务器,是否存在类似于Spark WebUI for Distributed Tensorflow的任何实用程序?
注意:在单个工作人员的帮助下使用摘要编写器并在tensorboard中加载日志与我想要实现的不同。