存储大型索引数组的策略?

时间:2020-08-14 02:00:58

标签: python

目标是从神经网络中提取图像的特征向量并存储在磁盘上,并允许为特定的图像特征向量建立索引。

该项目包含500,000张图像,其形状相同的矢量最多(2048,6,6),可以将其展平为长度为73728的矢量。

建议使用什么方法来存储可索引和更新的大量大型数组,同时确保没有重复的索引?

我不是HDF5的专家,但是pandas.to_hdf似乎不支持ndarrays列。用h5py更新或附加HDF5数据集似乎并不简单。 HDF5是这种类型的数据存储的最佳格式,还是有替代方法?

0 个答案:

没有答案