我在nvidia docker中使用tensorflow 1.1。
我目前正在尝试运行两个不同的卷积神经网络,在两个单独的线程中运行推理,在python进程中访问相同的gpu。
首先,我正在加载两个不同的模型:
模型1:
with self.sess.as_default():
saver = tf.train.import_meta_graph('saved_models/cnn_model112.ckpt.meta')
saver.restore(self.sess, 'saved_models/cnn_model112.ckpt')
self.graph = self.sess.graph
with self.graph.as_default():
self.sess.run(tf.global_variables_initializer())
模型2:
with tf.gfile.GFile(frozen_graph_filename, "rb") as f:
graph_def = tf.GraphDef()
graph_def.ParseFromString(f.read())
with tf.Graph().as_default() as g1:
tf.import_graph_def(
graph_def,
input_map=None,
return_elements=None,
name=prefix,
op_dict=None,
producer_op_list=None
)
self.sess = tf.Session(graph=self.graph)
这两个会话位于不同的对象中。 每个对象都会旋转一个线程来对其相关模型进行推理,并以此函数为目标:
def run(self, stop_event, streams, parent_videos, output, netType):
if self.sess:
with self.sess.as_default():
while not stop_event.is_set():
ret, frame = stream.readSingleFrame()
if ret and frame is not None:
self.sess.run(self.predict, feed_dict={ self.input: [frame]})
这会导致以下错误:
2017-07-13 09:28:17.346614: E tensorflow/stream_executor/cuda/cuda_event.cc:49] Error polling for event status: failed to query event: CUDA_ERROR_ILLEGAL_ADDRESS
2017-07-13 09:28:17.346866: F tensorflow/core/common_runtime/gpu/gpu_event_mgr.cc:203] Unexpected Event status: 1
根据我的阅读,我认为多个线程可能使用相同的会话,因为session.run()
调用是线程安全的。我还读过,我可以将图表合并在同一会话中运行。但是我真的希望它们同时运行。
我认为这两个会话正在尝试同时访问相同的GPU内存空间,但我认为tensorflow会为gpu上的两个图形分配足够的空间。
在我的问题之上,为什么在单独的进程中在同一GPU上运行并发推理是有效的,而不是在单独的线程中?