我有一些带有约2000万个数据点(约32 GB大小)的数据集文件。 有没有一种快速加载数据的好方法?我想加载数据以创建两个用于训练神经网络的hdf5文件。
编辑: 目前,我用
加载数据for File in FilesToLoad
DataFile = h5py.File(File , "r")
Label = list(DataFile.get("Label"))
for Item in Label:
if(not(Item in ClassLabels)):
ClassLabels.append(Item)
该程序在“ Label = list(...)”处花费很长时间。第二个for循环是从我所有的标签创建一个唯一标签列表,因此我可以使用Labelencoder对其进行编码。这也需要很长时间。 有没有更有效的方法来从大列表中挑选唯一值?