由于名义上的ResNet不使用Dropout,因此某些工作(例如https://arxiv.org/pdf/1611.02155.pdf)选择在训练期间使用较小的BatchNorm大小,这可以作为正则化函数并防止过度拟合。
详细说明,尽管他们的训练小批量大小为256,但他们仅针对输入批次的86或16个样本计算BatchNorm参数。这会产生一些噪音,有效地降低了过拟合的可能性。关于如何在TensorFlow中实现此想法?试图摆弄些东西,但找不到办法。上述论文的工作在MatConvNet中。也欢迎使用Keras的任何技巧。