应用错误收集

我有一些带有约2000万个数据点（约32 GB大小）的数据集文件。有没有一种快速加载数据的好方法？我想加载数据以创建两个用于训练神经网络的hdf5文件。

编辑：目前，我用

加载数据

for File in FilesToLoad
     DataFile = h5py.File(File , "r")
     Label = list(DataFile.get("Label"))

for Item in Label:
    if(not(Item in ClassLabels)):
          ClassLabels.append(Item)

该程序在“ Label = list（...）”处花费很长时间。第二个for循环是从我所有的标签创建一个唯一标签列表，因此我可以使用Labelencoder对其进行编码。这也需要很长时间。有没有更有效的方法来从大列表中挑选唯一值？

使用python从HDF5文件加载大型数据集

0 个答案: