我正在训练CNN,其中包含带有theano的1M图像。现在我对如何准备培训数据感到困惑。
我的问题是:
当图像调整为64 * 64 * 3时,整个数据的大小约为100G。我应该将数据保存到单个npy文件还是一些较小的文件中?哪一个有效?
如何确定CNN的参数数量? 1M / 10 = 100K怎么样?
我应该限制训练块的内存成本和CNN参数低于GPU内存吗?
我的电脑配有16G内存和GPU Titian。
非常感谢。
答案 0 :(得分:0)
如果您正在使用像pylearn2,lasagne,Keras等NN框架,请检查文档以查看是否存在从hdf5商店或类似产品迭代批量磁盘的指南。
如果什么也没有,你不想自己推,那么fuel package提供了许多有用的数据迭代方案,可以适应theano中的模型(可能是大多数框架;有一个很好的教程在燃料库中。)
至于参数,您必须交叉验证以确定数据的最佳参数。
是的,批次的型号尺寸+小批量尺寸+辍学面具必须在可用的vram之下。