从GPU服务caffe模型 - 实现并行性

时间:2016-06-24 18:05:41

标签: caffe

我正在寻找使用GPU的caffe模型提供并行预测的选项。由于GPU内存有限,通过只加载一次网络可以实现并行性的选项有哪些?

我用龙卷风wsgi + flask成功包裹了我的分割网。但是在一天结束时,这在一个过程中是最等效的。 https://github.com/BVLC/caffe/blob/master/examples/web_demo/app.py

每个流程都有我自己的网络副本严格要求,因为在培训结束后网络是只读的吗?是否有可能依靠fork进行并行化?

我正在开发一个示例应用程序,它可以提供分段模型的结果。它利用写入时的复制并在主服务器中加载网络一次,并为分叉的子服务器提供内存引用。我在Web服务器设置中启动此设置时遇到问题。我尝试初始化模型时出现内存错误。我在这里使用的网络服务器是uwsgi。

有没有人通过只加载一次网络(因为GPU内存有限)并实现服务层的并行性来实现并行性?如果你们中的任何一个人能指出我正确的方向,我将不胜感激。

0 个答案:

没有答案