如何从numpy数组中逐渐释放内存?

时间:2016-10-16 08:16:28

标签: python numpy leveldb

我处于不断超出内存限制的情况下(我有20G的RAM)。不知何故,我设法将巨大的数组放入内存并继续我的进程。现在需要将数据保存到磁盘上。我需要以leveldb格式保存它。

这是负责将规范化数据保存到磁盘上的代码片段:

print 'Outputting training data'

leveldb_file = dir_des + 'svhn_train_leveldb_normalized'
batch_size = size_train

# create the leveldb file
db = leveldb.LevelDB(leveldb_file)
batch = leveldb.WriteBatch()
datum = caffe_pb2.Datum()

for i in range(size_train):
    if i % 1000 == 0:
        print i

    # save in datum
    datum = caffe.io.array_to_datum(data_train[i], label_train[i])
    keystr = '{:0>5d}'.format(i)
    batch.Put( keystr, datum.SerializeToString() )

    # write batch
    if(i + 1) % batch_size == 0:
        db.Write(batch, sync=True)
        batch = leveldb.WriteBatch()
        print (i + 1)

# write last batch
if (i+1) % batch_size != 0:
    db.Write(batch, sync=True)
    print 'last batch'
    print (i + 1)

现在,我的问题是,在保存到磁盘时,我在最后(在需要保存到磁盘的604k项目中的495k)中达到极限。

为了解决这个问题,我想在编写每个批处理后,我从numpy数组(data_train)中释放相应的内存,因为看起来leveldb以事务方式写入数据,直到所有数据都被写入,它们是没有冲到磁盘!

我的第二个想法是以某种方式使写入非事务性,并且当使用the db.Write编写每个批处理时,它实际上将内容保存到磁盘。

我不知道这些想法是否适用。

1 个答案:

答案 0 :(得分:0)

尝试将batch_size缩减为小于整个数据集的内容,例如100000

从@ren的评论转换为社区Wiki