我有一个包含700万个样本的数据集,每个样本包含1024个维度的图像特征以及128个音频特征。此外,总共有1000多个类别,但是每个样本的标签数量不确定,这是一个多标签分类任务。
因为原始存储文件不支持按索引访问,所以我不得不将其转换为新的文件类型。
目前,我尝试使用 pandas 管理这些数据,但是结果是如此混乱。最终的csv
文件与原始文件没有相同的行。
存储在数据框中的每个实体如下所示。
{"id": id # str
"image": image # numpy.array with 1024 dim
"audio": audio # numpy.array with 128 dim
"label": label # numpy.array with uncertain dim
}
有没有有效的方法来解决这个问题?