应用错误收集

我有一个“令人尴尬的并行”图表，我使用分布式Tensorflow在我的集群中的N台计算机上运行，这些图表是从单个输入队列（位于一个Pagination）上提供的，并且结果收集在一个:pageNum在一台机器上。

问题在于，当我开始使用N＆gt; 24台机器时，我得到与GRPC相关的断言失败（我相信），例如：

device

和

FIFOQueue

是否有创建图表的最佳实践，以便在群集协调方面进行扩展？我该如何调试此问题？