Question

我正在运行如下定义的U-net：

inputs = Input((IMG_HEIGHT, IMG_WIDTH, IMG_CHANNELS))
s = Lambda(lambda x: x / 255) (inputs)

c1 = Conv2D(8, (3, 3), activation='relu', padding='same') (s)
c1 = Conv2D(8, (3, 3), activation='relu', padding='same') (c1)
p1 = MaxPooling2D((2, 2)) (c1)

c2 = Conv2D(16, (3, 3), activation='relu', padding='same') (p1)
c2 = Conv2D(16, (3, 3), activation='relu', padding='same') (c2)
p2 = MaxPooling2D((2, 2)) (c2)

c3 = Conv2D(32, (3, 3), activation='relu', padding='same') (p2)
c3 = Conv2D(32, (3, 3), activation='relu', padding='same') (c3)
p3 = MaxPooling2D((2, 2)) (c3)

c4 = Conv2D(64, (3, 3), activation='relu', padding='same') (p3)
c4 = Conv2D(64, (3, 3), activation='relu', padding='same') (c4)
p4 = MaxPooling2D(pool_size=(2, 2)) (c4)

c5 = Conv2D(128, (3, 3), activation='relu', padding='same') (p4)
c5 = Conv2D(128, (3, 3), activation='relu', padding='same') (c5)

u6 = Conv2DTranspose(64, (2, 2), strides=(2, 2), padding='same') (c5)
u6 = concatenate([u6, c4])
c6 = Conv2D(64, (3, 3), activation='relu', padding='same') (u6)
c6 = Conv2D(64, (3, 3), activation='relu', padding='same') (c6)

u7 = Conv2DTranspose(32, (2, 2), strides=(2, 2), padding='same') (c6)
u7 = concatenate([u7, c3])
c7 = Conv2D(32, (3, 3), activation='relu', padding='same') (u7)
c7 = Conv2D(32, (3, 3), activation='relu', padding='same') (c7)

u8 = Conv2DTranspose(16, (2, 2), strides=(2, 2), padding='same') (c7)
u8 = concatenate([u8, c2])
c8 = Conv2D(16, (3, 3), activation='relu', padding='same') (u8)
c8 = Conv2D(16, (3, 3), activation='relu', padding='same') (c8)

u9 = Conv2DTranspose(8, (2, 2), strides=(2, 2), padding='same') (c8)
u9 = concatenate([u9, c1], axis=3)
c9 = Conv2D(8, (3, 3), activation='relu', padding='same') (u9)
c9 = Conv2D(8, (3, 3), activation='relu', padding='same') (c9)

outputs = Conv2D(10, (1, 1), activation='sigmoid') (c9)

model = Model(inputs=[inputs], outputs=[outputs])

model.compile(optimizer='Adamax', loss = dice, metrics = [mIoU])

请注意，我正在对十个类别进行多类别预测。输入是256x256x3（rgb）图像，地面实况是自256x256x10起大小为depth=num_classes=10的二进制掩码。我的问题是，我意外地忘记将激活功能从sigmoid更改为softmax并运行了网络。网络仍然运行。这怎么可能？？是因为它独立对待每个二进制掩码吗？

更有趣的是，使用sigmoid时，与使用softmax运行时相比，网络实际上产生了更好的结果。

Answer 1

Q1: Why my network is still trainable with a *wrong* loss function?

A1：因为您的网络在梯度下降方面进行了优化，所以只要有可区分性，它就不会在乎使用哪个损失函数。这个事实揭示了在网络不工作时调试网络的困难，因为它不是代码错误（例如，导致内存泄漏，数值溢出等），但是某些错误在科学上听起来并不合理（例如，回归目标是范围（0,100），但您使用sigmoid作为最后一个致密层的激活函数。

Q2: How come `sigmoid` gives better performance than `softmax`?

A2：首先，使用sigmoid损失函数意味着要训练10个二元分类器，每个分类中一个分类器（即经典的一个vs.全部或一个v.s.休息设置），因此从技术上讲也是合理的。

sigmoid和softmax之间的唯一区别是，softmax网络的类预测概率之和始终为1，而对于sigmoid网络则不一定为1。 sigmoid网络。换句话说，在测试sigmoid网络期间，可能难以确定标签。

关于softmax为何比sigmoid更好的原因，它与许多方面有关，并且如果不进行仔细研究就很难分析。一种可能的解释是softmax独立地处理最后一个密集层的权重矩阵中的行，而sigmoid则独立地处理它们。因此，sigmoid可以更好地处理梯度方向相反的那些样本。另一个想法是，也许您应该尝试最近的heated-up softmax。

最后，如果您认为softmax版本可以提供更好的性能，但仍然希望使用sigmoid网络，则可以重用所有层，直到softmax网络中的最后一个密集层为止，调整新的//... Create new Identity and Claims Principal. ClaimsIdentity claimsIdentity = new ClaimsIdentity(User.Identity); ClaimsPrincipal claimsPrincipal = new ClaimsPrincipal(claimsIdentity); claimsIdentity.AddClaims(__getClaims()); claimsPrincipal.AddIdentity(claimsIdentity); //... Create a new Session Security Token. var token = FederatedAuthentication.SessionAuthenticationModule.CreateSessionSecurityToken( claimsPrincipal, "MyAPP", DateTime.UtcNow, DateTime.UtcNow.AddMinutes(expirationTime), false); //... Write a cookie. FederatedAuthentication.SessionAuthenticationModule. AuthenticateSessionSecurityToken(token, true);层，或者像处理多任务问题一样使用这两种损耗。

使用S形激活函数进行多类预测

1 个答案: