我使用tensor2tensor在tensorflow中编写了一个中等复杂度的模型。 (它使用RNN,如果这是相关的。)模型相对较快地保存到磁盘(~30秒),但是当我尝试恢复它时,它会挂起,看似永远。我给了它半个小时,它永远不会结束。
有趣的是,它能够在作业首次启动时相对有效地恢复模型。当我使用top检查正在运行的进程时,成功加载占用了300%的cpu,而不成功的加载占用了大约30%的cpu,而且只是零星的。
我试图确保我使用的是protobuf的C ++实现,因为这是缓慢加载的一个可能原因。但是,并不完全确定如何验证我正在使用它。