如何使用python将数百万个特征表示存储到磁盘上?

时间:2019-05-07 03:15:52

标签: python deep-learning

我有一个包含700万个样本的数据集,每个样本包含1024个维度的图像特征以及128个音频特征。此外,总共有1000多个类别,但是每个样本的标签数量不确定,这是一个多标签分类任务。

因为原始存储文件不支持按索引访问,所以我不得不将其转换为新的文件类型。

目前,我尝试使用 pandas 管理这些数据,但是结果是如此混乱。最终的csv文件与原始文件没有相同的行。

存储在数据框中的每个实体如下所示。

{"id": id # str
 "image": image # numpy.array with 1024 dim
 "audio": audio # numpy.array with 128 dim
 "label": label # numpy.array with uncertain dim
}

有没有有效的方法来解决这个问题?

0 个答案:

没有答案