具有大规模数据的theano CNN训练方法

时间:2015-11-02 14:09:09

标签: theano conv-neural-network training-data large-data

我正在训练CNN,其中包含带有theano的1M图像。现在我对如何准备培训数据感到困惑。

我的问题是:

  1. 当图像调整为64 * 64 * 3时,整个数据的大小约为100G。我应该将数据保存到单个npy文件还是一些较小的文件中?哪一个有效?

  2. 如何确定CNN的参数数量? 1M / 10 = 100K怎么样?

  3. 我应该限制训练块的内存成本和CNN参数低于GPU内存吗?

  4. 我的电脑配有16G内存和GPU Titian。

    非常感谢。

1 个答案:

答案 0 :(得分:0)

如果您正在使用像pylearn2,lasagne,Keras等NN框架,请检查文档以查看是否存在从hdf5商店或类似产品迭代批量磁盘的指南。

如果什么也没有,你不想自己推,那么fuel package提供了许多有用的数据迭代方案,可以适应theano中的模型(可能是大多数框架;有一个很好的教程在燃料库中。)

至于参数,您必须交叉验证以确定数据的最佳参数。

是的,批次的型号尺寸+小批量尺寸+辍学面具必须在可用的vram之下。