我知道我们需要将输入数据集中在一起,以便以全局标量学习率促进NN培训。但是,减去所有通道(R,G,B)的像素平均值会产生什么差异而不是图像平均值呢?
此外,使用图像均值对我来说更有意义,因为我们的训练网络中的图像的不同空间区域可能具有不同的手段,并且减去在整个图像上计算的恒定像素平均值将不会使输入正确居中
P.S。我正在处理图像分割问题,因此如果上下文影响答案,请指出。
答案 0 :(得分:3)
只是为了澄清平均图像与平均像素:
图像 - 每个通道的平均图像(例如,对于具有3个通道的250 X 250图像,我们有3个平均图像,尺寸为250 X 250,像素位置的平均值)
像素 - 每个通道的单一平均值((例如红色通道平均值,绿色通道平均值,蓝色通道平均值)
按照我的意思,当我们不确定实际如何训练模型时(使用w / o批量标准或均值),平均图像在推理时很好用。
答案 1 :(得分:0)
您应该将每个通道(R,G,B)的平均值正确地取为零中心图像。