标签: python
目标是从神经网络中提取图像的特征向量并存储在磁盘上,并允许为特定的图像特征向量建立索引。
该项目包含500,000张图像,其形状相同的矢量最多(2048,6,6),可以将其展平为长度为73728的矢量。
建议使用什么方法来存储可索引和更新的大量大型数组,同时确保没有重复的索引?
我不是HDF5的专家,但是pandas.to_hdf似乎不支持ndarrays列。用h5py更新或附加HDF5数据集似乎并不简单。 HDF5是这种类型的数据存储的最佳格式,还是有替代方法?