Python 3
我想知道真正干净的pythonic并发数据加载器应该是什么样子。我需要这种方法来处理我的一个项目,该项目对数据进行大量计算,这些数据太大而不能完全适合内存。因此,我实现了应该同时运行并将数据存储在队列中的数据加载器,以便主进程可以在(同时)下载数据的同时工作。准备。当然,队列应该在它为空时阻塞(主进程尝试使用更多项目 - >队列应该等待新数据)或完全(工作进程应该等到主进程将数据从队列中消耗掉以防止出现 - 记忆错误)。
我已经使用Python的multiprocessing
模块(multiprocessing.Queue
和multiprocessing.Process
)编写了一个类来满足这一需求。该课程的关键部分实现如下:
import multiprocessing as mp
from itertools import cycle
class ConcurrentLoader:
def __init__(path_to_data, queue_size, batch_size):
self._batch_size
self._path = path_to_data
filenames = ... # filenames for path 'path_to_data',
# get loaded using glob
self._files = cycle()
self._q = mp.Queue(queue_size)
...
self._worker = mp.Process(target=self._worker_func, daemon=True)
self._worker.start() # only started, never stopped
def _worker_func(self):
while True:
buffer = list()
for i in range(batch_size):
f = next(self._files)
... # load f and do some pre-processing with NumPy
... # add it to buffer
self._q.put(np.array(buffer).astype(np.float32))
def get_batch_data(self):
self._q.get()
该课程有更多方法,但它们都是为了方便功能而提供的。#34;例如,它在dict中计算每个文件的加载频率,加载整个数据集的频率等等,但这些在Python中很容易实现,并且不会浪费太多的计算时间(集合,dicts,.. )。
另一方面,由于I / O和预处理,数据部分本身甚至可能需要几秒钟。这就是我希望这种情况同时发生的原因。
ConcurrentLoader
应该:
get_batch_data
,但队列为空while True
浪费资源ConcurrentLoader
的任何类:他们应该只提供数据的路径并使用get_batch_data
而不会注意到它实际上同时工作("轻松自由使用")考虑到这些目标(我忘记了什么吗?)我应该怎样做才能增强当前的实施?线程/死锁是否安全?还有更多" pythonic"实施方式?我可以把它弄干净吗?是否会以某种方式浪费资源?
任何使用ConcurrentLoader
的类都会大致遵循以下设置:
class Foo:
...
def do_something(self):
...
data1 = ConcurrentLoader("path/to/data1", 64, 8)
data2 = ConcurrentLoader("path/to/data2", 256, 16)
...
sample1 = data1.get_batch_data()
sample2 = data2.get_batch_data()
... # heavy computations with data contained in 'sample1' & 'sample2'
# go *here*
请指出任何形式的错误,以改善我的方法或提供一个自己的,更清洁,更pythonic的方法。
答案 0 :(得分:1)
当multiprocessing.Queue
为空/满时阻止
调用get()
/ put()
会自动发生。
此行为对调用函数是透明的。
在self._worker.daemon = True
之前使用self._worker.start()
,这样当主要流程退出时,工作人员将自动被杀死