Question

Python 3

我想知道真正干净的pythonic并发数据加载器应该是什么样子。我需要这种方法来处理我的一个项目，该项目对数据进行大量计算，这些数据太大而不能完全适合内存。因此，我实现了应该同时运行并将数据存储在队列中的数据加载器，以便主进程可以在（同时）下载数据的同时工作。准备。当然，队列应该在它为空时阻塞（主进程尝试使用更多项目 - >队列应该等待新数据）或完全（工作进程应该等到主进程将数据从队列中消耗掉以防止出现 - 记忆错误）。

我已经使用Python的multiprocessing模块（multiprocessing.Queue和multiprocessing.Process）编写了一个类来满足这一需求。该课程的关键部分实现如下：

import multiprocessing as mp
from itertools import cycle    

class ConcurrentLoader:
    def __init__(path_to_data, queue_size, batch_size):
        self._batch_size
        self._path = path_to_data
        filenames = ... # filenames for path 'path_to_data',
                        # get loaded using glob
        self._files = cycle()
        self._q = mp.Queue(queue_size)
        ...
        self._worker = mp.Process(target=self._worker_func, daemon=True)
        self._worker.start() # only started, never stopped

    def _worker_func(self):
        while True:
            buffer = list()
            for i in range(batch_size):
                f = next(self._files)
                ... # load f and do some pre-processing with NumPy
                ... # add it to buffer
            self._q.put(np.array(buffer).astype(np.float32))

    def get_batch_data(self):
        self._q.get()

该课程有更多方法，但它们都是为了方便功能而提供的。＃34;例如，它在dict中计算每个文件的加载频率，加载整个数据集的频率等等，但这些在Python中很容易实现，并且不会浪费太多的计算时间（集合，dicts，.. ）。

另一方面，由于I / O和预处理，数据部分本身甚至可能需要几秒钟。这就是我希望这种情况同时发生的原因。

ConcurrentLoader应该：

阻止主进程：如果调用get_batch_data，但队列为空
阻止工作进程：如果队列已满，则防止出现内存不足错误并防止while True浪费资源
be＆＃34;透明＆＃34;对于使用ConcurrentLoader的任何类：他们应该只提供数据的路径并使用get_batch_data而不会注意到它实际上同时工作（＆＃34;轻松自由使用＆＃34;）
在主进程死亡以再次释放资源时终止其工作者

考虑到这些目标（我忘记了什么吗？）我应该怎样做才能增强当前的实施？线程/死锁是否安全？还有更多＆＃34; pythonic＆＃34;实施方式？我可以把它弄干净吗？是否会以某种方式浪费资源？

任何使用ConcurrentLoader的类都会大致遵循以下设置：

class Foo:
    ...

    def do_something(self):
        ...
        data1 = ConcurrentLoader("path/to/data1", 64, 8)
        data2 = ConcurrentLoader("path/to/data2", 256, 16)
        ...
        sample1 = data1.get_batch_data()
        sample2 = data2.get_batch_data()
        ... # heavy computations with data contained in 'sample1' & 'sample2'
            # go *here*

请指出任何形式的错误，以改善我的方法或提供一个自己的，更清洁，更pythonic的方法。

Answer 1

当multiprocessing.Queue为空/满时阻止调用get() / put()会自动发生。
此行为对调用函数是透明的。
在self._worker.daemon = True之前使用self._worker.start()，这样当主要流程退出时，工作人员将自动被杀死

并发数据加载器的干净，pythonic方式？

1 个答案: