使用S形激活函数进行多类预测

时间:2018-12-30 22:37:58

标签: keras neural-network

我正在运行如下定义的U-net:

inputs = Input((IMG_HEIGHT, IMG_WIDTH, IMG_CHANNELS))
s = Lambda(lambda x: x / 255) (inputs)

c1 = Conv2D(8, (3, 3), activation='relu', padding='same') (s)
c1 = Conv2D(8, (3, 3), activation='relu', padding='same') (c1)
p1 = MaxPooling2D((2, 2)) (c1)

c2 = Conv2D(16, (3, 3), activation='relu', padding='same') (p1)
c2 = Conv2D(16, (3, 3), activation='relu', padding='same') (c2)
p2 = MaxPooling2D((2, 2)) (c2)

c3 = Conv2D(32, (3, 3), activation='relu', padding='same') (p2)
c3 = Conv2D(32, (3, 3), activation='relu', padding='same') (c3)
p3 = MaxPooling2D((2, 2)) (c3)

c4 = Conv2D(64, (3, 3), activation='relu', padding='same') (p3)
c4 = Conv2D(64, (3, 3), activation='relu', padding='same') (c4)
p4 = MaxPooling2D(pool_size=(2, 2)) (c4)

c5 = Conv2D(128, (3, 3), activation='relu', padding='same') (p4)
c5 = Conv2D(128, (3, 3), activation='relu', padding='same') (c5)

u6 = Conv2DTranspose(64, (2, 2), strides=(2, 2), padding='same') (c5)
u6 = concatenate([u6, c4])
c6 = Conv2D(64, (3, 3), activation='relu', padding='same') (u6)
c6 = Conv2D(64, (3, 3), activation='relu', padding='same') (c6)

u7 = Conv2DTranspose(32, (2, 2), strides=(2, 2), padding='same') (c6)
u7 = concatenate([u7, c3])
c7 = Conv2D(32, (3, 3), activation='relu', padding='same') (u7)
c7 = Conv2D(32, (3, 3), activation='relu', padding='same') (c7)

u8 = Conv2DTranspose(16, (2, 2), strides=(2, 2), padding='same') (c7)
u8 = concatenate([u8, c2])
c8 = Conv2D(16, (3, 3), activation='relu', padding='same') (u8)
c8 = Conv2D(16, (3, 3), activation='relu', padding='same') (c8)

u9 = Conv2DTranspose(8, (2, 2), strides=(2, 2), padding='same') (c8)
u9 = concatenate([u9, c1], axis=3)
c9 = Conv2D(8, (3, 3), activation='relu', padding='same') (u9)
c9 = Conv2D(8, (3, 3), activation='relu', padding='same') (c9)

outputs = Conv2D(10, (1, 1), activation='sigmoid') (c9)

model = Model(inputs=[inputs], outputs=[outputs])

model.compile(optimizer='Adamax', loss = dice, metrics = [mIoU])

请注意,我正在对十个类别进行多类别预测。输入是256x256x3(rgb)图像,地面实况是自256x256x10起大小为depth=num_classes=10的二进制掩码。我的问题是,我意外地忘记将激活功能从sigmoid更改为softmax并运行了网络。网络仍然运行。这怎么可能??是因为它独立对待每个二进制掩码吗?

更有趣的是,使用sigmoid时,与使用softmax运行时相比,网络实际上产生了更好的结果。

1 个答案:

答案 0 :(得分:2)

Q1: Why my network is still trainable with a *wrong* loss function?

A1:因为您的网络在梯度下降方面进行了优化,所以只要有可区分性,它就不会在乎使用哪个损失函数。这个事实揭示了在网络不工作时调试网络的困难,因为它不是代码错误(例如,导致内存泄漏,数值溢出等),但是某些错误在科学上听起来并不合理(例如,回归目标是范围(0,100),但您使用sigmoid作为最后一个致密层的激活函数。

Q2: How come `sigmoid` gives better performance than `softmax`?

A2:首先,使用sigmoid损失函数意味着要训练10个二元分类器,每个分类中一个分类器(即经典的一个vs.全部或一个v.s.休息设置),因此从技术上讲也是合理的。

sigmoidsoftmax之间的唯一区别是,softmax网络的类预测概率之和始终为1,而对于sigmoid网络则不一定为1。 sigmoid网络。换句话说,在测试sigmoid网络期间,可能难以确定标签。

关于softmax为何比sigmoid更好的原因,它与许多方面有关,并且如果不进行仔细研究就很难分析。一种可能的解释是softmax独立地处理最后一个密集层的权重矩阵中的行,而sigmoid则独立地处理它们。因此,sigmoid可以更好地处理梯度方向相反的那些样本。另一个想法是,也许您应该尝试最近的heated-up softmax

最后,如果您认为softmax版本可以提供更好的性能,但仍然希望使用sigmoid网络,则可以重用所有层,直到softmax网络中的最后一个密集层为止,调整新的//... Create new Identity and Claims Principal. ClaimsIdentity claimsIdentity = new ClaimsIdentity(User.Identity); ClaimsPrincipal claimsPrincipal = new ClaimsPrincipal(claimsIdentity); claimsIdentity.AddClaims(__getClaims()); claimsPrincipal.AddIdentity(claimsIdentity); //... Create a new Session Security Token. var token = FederatedAuthentication.SessionAuthenticationModule.CreateSessionSecurityToken( claimsPrincipal, "MyAPP", DateTime.UtcNow, DateTime.UtcNow.AddMinutes(expirationTime), false); //... Write a cookie. FederatedAuthentication.SessionAuthenticationModule. AuthenticateSessionSecurityToken(token, true); 层,或者像处理多任务问题一样使用这两种损耗。