使用python从HDF5文件加载大型数据集

时间:2018-08-25 09:08:40

标签: python scipy h5py

我有一些带有约2000万个数据点(约32 GB大小)的数据集文件。 有没有一种快速加载数据的好方法?我想加载数据以创建两个用于训练神经网络的hdf5文件。

编辑: 目前,我用

加载数据
for File in FilesToLoad
     DataFile = h5py.File(File , "r")
     Label = list(DataFile.get("Label"))

for Item in Label:
    if(not(Item in ClassLabels)):
          ClassLabels.append(Item)

该程序在“ Label = list(...)”处花费很长时间。第二个for循环是从我所有的标签创建一个唯一标签列表,因此我可以使用Labelencoder对其进行编码。这也需要很长时间。 有没有更有效的方法来从大列表中挑选唯一值?

0 个答案:

没有答案