PyTorch具有DataParallel,可在多个GPU之间拆分一批。但是,这不是我想要的并行度,因为除非批处理大小太大而无法容纳到GPU的内存中,否则这不会带来任何速度上的好处。
我想要在多个CPU线程中进行实时低延迟评估。
因此对于2个GPU,我想交替使用GPU 0和GPU 1进行推理(均由相应的CPU线程控制)。因此,当新数据到达时,即使我们只是开始为一个GPU工作,以至于它被占用,我们也可以为免费GPU准备一批。
我对低延迟感兴趣的原因是因为我正在实现AlphaGo算法的一种变体。