我目前正在进行语义分割,但是我的数据集很小,
我只有700张左右的图像具有数据增强功能,例如,翻转可以
制作2100张图片。
不确定是否足以完成我的任务(使用四个语义分段
类)。
我要使用批量归一化和小批量梯度下降
真正让我挠头的是,如果批量太小,
批次规范化不能很好地工作,但是具有较大的批次大小,
这似乎等效于整个批次梯度下降
我想知道#of样品和批次之间是否存在类似标准比率 大小?
答案 0 :(得分:1)
首先让我解决您的问题的第二部分“带有小数据集的神经网络策略”。您可能希望在较大的数据集上采用经过预训练的网络,并使用较小的数据集对该网络进行微调。参见,例如,this tutorial。
第二,您询问批量大小。确实,较小的批次将使算法在经典随机梯度下降法中徘徊在最优值附近,其标志是损失的噪声波动很大。批量越大,通常朝向最佳方向的“平滑”轨迹就越多。无论如何,我建议您使用动量较大的算法,例如Adam。那将有助于您训练的融合。
从历史上看,批处理大小可以保持与GPU内存一样大。如果GPU内存不足,则可以减小批处理大小。