我有3个独立的Python进程,每个进程运行TensorFlow会话并加载我的模型。该系统有1个GPU。
当我同时进行3次预测时(每个进程1次),预测时间比我一次进行1次预测要慢得多。
我已通过FutureTarget<Bitmap> futureTarget = Glide.with(this).load(flagUris.get(i)).asBitmap().into(100, 100)
Bitmap myBitmap = futureTarget.get();
//Get a lock on the Array, Write to Array, Release Array for others.
kwarg将每个模型的内存限制为per_process_gpu_memory_fraction
。
在单个GPU上并行运行模型时,有没有办法获得更好的性能(每个响应的时间更短)?