我的机器上有两张Nvidia Titan X卡,并且希望在单个特定班上微调COCO预训练的Inception V2模型。我已经创建了train / val tfrecords并更改了配置以运行tensorflow对象检测训练管道。
我能够开始训练,但是只要尝试评估检查点,它就会挂起(没有任何OOM)。目前,它仅使用具有正常范围内其他资源参数(如RAM,CPU,IO等)的GPU 0。因此,我猜想GPU是瓶颈。我想尝试在单独的GPU上拆分训练和验证,看看是否可行。
我试图寻找一个可以对两个进程进行不同设置(例如设置“ CUDA_VISIBLE_DEVICES”)的地方,但是不幸的是,最新的tensorflow对象检测API代码(使用tensorflow 1.12)使其很难做到这一点。我也无法验证我关于在机器挂起的同一过程中进行培训和验证的假设。有人可以建议在哪里寻找解决方案吗?