标签: tensorflow grpc
我有一个“令人尴尬的并行”图表,我使用分布式Tensorflow在我的集群中的N台计算机上运行,这些图表是从单个输入队列(位于一个Pagination)上提供的,并且结果收集在一个:pageNum在一台机器上。
Pagination
:pageNum
问题在于,当我开始使用N> 24台机器时,我得到与GRPC相关的断言失败(我相信),例如:
device
和
FIFOQueue
是否有创建图表的最佳实践,以便在群集协调方面进行扩展?我该如何调试此问题?