我正在运行如下定义的U-net:
inputs = Input((IMG_HEIGHT, IMG_WIDTH, IMG_CHANNELS))
s = Lambda(lambda x: x / 255) (inputs)
c1 = Conv2D(8, (3, 3), activation='relu', padding='same') (s)
c1 = Conv2D(8, (3, 3), activation='relu', padding='same') (c1)
p1 = MaxPooling2D((2, 2)) (c1)
c2 = Conv2D(16, (3, 3), activation='relu', padding='same') (p1)
c2 = Conv2D(16, (3, 3), activation='relu', padding='same') (c2)
p2 = MaxPooling2D((2, 2)) (c2)
c3 = Conv2D(32, (3, 3), activation='relu', padding='same') (p2)
c3 = Conv2D(32, (3, 3), activation='relu', padding='same') (c3)
p3 = MaxPooling2D((2, 2)) (c3)
c4 = Conv2D(64, (3, 3), activation='relu', padding='same') (p3)
c4 = Conv2D(64, (3, 3), activation='relu', padding='same') (c4)
p4 = MaxPooling2D(pool_size=(2, 2)) (c4)
c5 = Conv2D(128, (3, 3), activation='relu', padding='same') (p4)
c5 = Conv2D(128, (3, 3), activation='relu', padding='same') (c5)
u6 = Conv2DTranspose(64, (2, 2), strides=(2, 2), padding='same') (c5)
u6 = concatenate([u6, c4])
c6 = Conv2D(64, (3, 3), activation='relu', padding='same') (u6)
c6 = Conv2D(64, (3, 3), activation='relu', padding='same') (c6)
u7 = Conv2DTranspose(32, (2, 2), strides=(2, 2), padding='same') (c6)
u7 = concatenate([u7, c3])
c7 = Conv2D(32, (3, 3), activation='relu', padding='same') (u7)
c7 = Conv2D(32, (3, 3), activation='relu', padding='same') (c7)
u8 = Conv2DTranspose(16, (2, 2), strides=(2, 2), padding='same') (c7)
u8 = concatenate([u8, c2])
c8 = Conv2D(16, (3, 3), activation='relu', padding='same') (u8)
c8 = Conv2D(16, (3, 3), activation='relu', padding='same') (c8)
u9 = Conv2DTranspose(8, (2, 2), strides=(2, 2), padding='same') (c8)
u9 = concatenate([u9, c1], axis=3)
c9 = Conv2D(8, (3, 3), activation='relu', padding='same') (u9)
c9 = Conv2D(8, (3, 3), activation='relu', padding='same') (c9)
outputs = Conv2D(10, (1, 1), activation='sigmoid') (c9)
model = Model(inputs=[inputs], outputs=[outputs])
model.compile(optimizer='Adamax', loss = dice, metrics = [mIoU])
请注意,我正在对十个类别进行多类别预测。输入是256x256x3
(rgb)图像,地面实况是自256x256x10
起大小为depth=num_classes=10
的二进制掩码。我的问题是,我意外地忘记将激活功能从sigmoid
更改为softmax
并运行了网络。网络仍然运行。这怎么可能??是因为它独立对待每个二进制掩码吗?
更有趣的是,使用sigmoid
时,与使用softmax
运行时相比,网络实际上产生了更好的结果。
答案 0 :(得分:2)
Q1: Why my network is still trainable with a *wrong* loss function?
A1:因为您的网络在梯度下降方面进行了优化,所以只要有可区分性,它就不会在乎使用哪个损失函数。这个事实揭示了在网络不工作时调试网络的困难,因为它不是代码错误(例如,导致内存泄漏,数值溢出等),但是某些错误在科学上听起来并不合理(例如,回归目标是范围(0,100),但您使用sigmoid
作为最后一个致密层的激活函数。
Q2: How come `sigmoid` gives better performance than `softmax`?
A2:首先,使用sigmoid
损失函数意味着要训练10个二元分类器,每个分类中一个分类器(即经典的一个vs.全部或一个v.s.休息设置),因此从技术上讲也是合理的。
sigmoid
和softmax
之间的唯一区别是,softmax
网络的类预测概率之和始终为1,而对于sigmoid
网络则不一定为1。 sigmoid
网络。换句话说,在测试sigmoid
网络期间,可能难以确定标签。
关于softmax
为何比sigmoid
更好的原因,它与许多方面有关,并且如果不进行仔细研究就很难分析。一种可能的解释是softmax
独立地处理最后一个密集层的权重矩阵中的行,而sigmoid
则独立地处理它们。因此,sigmoid
可以更好地处理梯度方向相反的那些样本。另一个想法是,也许您应该尝试最近的heated-up softmax。
最后,如果您认为softmax
版本可以提供更好的性能,但仍然希望使用sigmoid
网络,则可以重用所有层,直到softmax
网络中的最后一个密集层为止,调整新的//... Create new Identity and Claims Principal.
ClaimsIdentity claimsIdentity = new ClaimsIdentity(User.Identity);
ClaimsPrincipal claimsPrincipal = new ClaimsPrincipal(claimsIdentity);
claimsIdentity.AddClaims(__getClaims());
claimsPrincipal.AddIdentity(claimsIdentity);
//... Create a new Session Security Token.
var token = FederatedAuthentication.SessionAuthenticationModule.CreateSessionSecurityToken(
claimsPrincipal, "MyAPP", DateTime.UtcNow, DateTime.UtcNow.AddMinutes(expirationTime), false);
//... Write a cookie.
FederatedAuthentication.SessionAuthenticationModule.
AuthenticateSessionSecurityToken(token, true);
层,或者像处理多任务问题一样使用这两种损耗。