在lmdb中压缩我的数据的最佳方法是什么

时间:2017-04-04 16:47:14

标签: compression caffe hdf5 lmdb bigdata

我有一个庞大的数据集,使我的lmdb变得庞大。对于16.000个样本,我的数据库已经是20 GB。但总的来说,我有800.000张图片,最终会有大量的数据。有没有办法压缩lmdb?或者使用HDF5文件更好?我想知道是否有人知道这个问题的最佳解决方案。

2 个答案:

答案 0 :(得分:1)

如果查看ReadImageToDatum中的io.cpp函数,它可以保持压缩(jpg / png)格式或原始格式的图像。要使用压缩格式,您可以使用cv::imencode压缩加载的图像。现在,您只需将数据设置为压缩数据并设置encoded标志。然后,您可以将数据存储在lmdb

答案 1 :(得分:0)

有各种减少输入大小的技术,但大部分都取决于您的应用程序。例如,ILSVRC-2012数据集图像可以调整为大约256x256像素,而不会对训练时间或模型精度产生不良影响。这将数据集从240Gb减少到40Gb。您的数据集是否会因简单的“物理”压缩而失去保真度?你有多小的数据集?

我担心我没有使用HDF5文件足以获得明智的意见。