我有一个可以正常工作的数据生成器,但是从200k图像数据集中读取数据非常慢。
我使用:
X=f[self.trName][idx * self.batch_size:(idx + 1) * self.batch_size]
使用f=h5py.File(fileName,'r')
打开文件后
由于idx较大(顺序访问?),它的速度似乎较慢。 但无论如何,读取批处理至少需要10秒(有时> 20秒),这太慢了(而且从SSD读取!)
有什么想法吗?
数据集在磁盘上(压缩的)占用50.4 GB的空间,其形状为: (210000,2,128,128)
(这是训练集的形状,目标具有相同的形状,并作为另一个数据集存储在同一.h5文件中)