我正在使用Mydia从视频中提取随机帧。因为我有很多视频,所以我想在保持可重复性的同时并行化此工作流程。 mydia.Videos
接受随机种子,这对于确保可重复性很重要。现在我需要处理并行化部分。
给定n
个视频和一个随机种子r
,无论工人多少,如何确保每个视频的提取帧相同?我对算法组件特别感兴趣,不一定是代码。
我最初的想法是使用multiprocessing.Pool
。但是,如果进程的完成时间不确定,则在对帧进行采样时会出现竞争条件。即,如果proc 1比proc 0花费更长的时间,则Videos
类的采样帧将不同于proc 0花费比proc 1更长的时间。
答案 0 :(得分:1)
我的解决方案有点不合常规,因为它是特定于库的。 Mydia允许传递帧以进行提取,而不是强制Videos
客户端直接进行采样。这使我有机会预计算要在父过程中采样的帧。这样,我可以通过用这些帧实例化一个新的Videos
来“模拟”子过程中的随机性。例如:
class MySampler:
def __init__(self, input_directory: Path, total_frames: int, num_frames: int, fps: int):
self.input_directory = Path(input_directory)
self.frames_per_video = [
self.__get_frame_numbers_for_each_video(total_frames, num_frames, fps)
for _ in self.input_directory.glob("*.mp4")
]
@staticmethod
def get_reader(num_frames: int, frames: List[int]):
# ignores the inputs and returns samples the frames that its constructed with
return Videos(target_size=(512, 512), num_frames=num_frames, mode=lambda *_: frames)
然后我可以简单地将其并行化:
def sample_frames(self, number_of_workers: int):
pool = Pool(processes=number_of_workers)
videos = list(self.input_directory.glob("*.mp4"))
pool.starmap_async(self.read_video, zip(self.frames_per_video, videos))
pool.close()
pool.join()
其中read_video
是调用get_reader
并进行读取的方法。