我正在尝试实施一个Siamese网络,就像在这个paper
中一样在本文中,他们使用交叉熵进行损失函数
我正在使用STL-10数据集进行培训,而不是本文中使用的3层网络,我将其替换为VGG-13 CNN网络,但最后一个logit层除外。
这是我的损失功能代码
def loss(pred,true_pred):
cross_entropy_loss = tf.multiply(-1.0,tf.reduce_mean(tf.add(tf.multiply(true_pred,tf.log(pred)),tf.multiply((1-true_pred),tf.log(tf.subtract(1.0,pred))))))
total_loss = tf.add(tf.reduce_sum(tf.get_collection(tf.GraphKeys.REGULARIZATION_LOSSES)),cross_entropy_loss,name='total_loss')
return cross_entropy_loss,total_loss
with tf.device('/gpu:0'):
h1 = siamese(feed_image1)
h2 = siamese(feed_image2)
l1_dist = tf.abs(tf.subtract(h1,h2))
with tf.variable_scope('pred') as scope:
predictions = tf.contrib.layers.fully_connected(l1_dist,1,activation_fn = tf.sigmoid,weights_initializer = tf.contrib.layers.xavier_initializer(uniform=False),weights_regularizer = tf.contrib.layers.l2_regularizer(tf.constant(0.001, dtype=tf.float32)))
celoss,cost = loss(predictions,feed_labels)
with tf.variable_scope('adam_optimizer') as scope:
optimizer = tf.train.AdamOptimizer(learning_rate=0.001)
opt = optimizer.minimize(cost)
然而,当我进行训练时,费用几乎保持在0.6932
我在这里使用过Adam Optimizer。
但之前我使用过Momentum Optimizer。 我试过改变学习率,但成本仍然相同。
经过几次迭代后,所有预测值都会收敛到0.5 。
在获取两批图像(input1和input2)的输出后,我采用了它们的L1距离,并且连接了一个完全连接的层,其中包含单个输出和sigmoid激活功能。
[h1和h2包含VGG-13网络的最后一个完全连接层(不是logit层)的输出]
由于输出激活函数是sigmoid,并且由于预测值大约为0.5,我们可以计算并说两个网络输出的加权L1距离之和接近于零。
我无法理解我哪里出错了。 非常感谢一点帮助。
答案 0 :(得分:0)
我认为不收敛可能是由梯度消失引起的。您可以使用tf.contrib.layers.optimize_loss和张量板跟踪渐变。您可以参考此answer了解更多详细信息。
一些优化(也许):
1)不要自己写交叉熵。 您可以通过logits API使用S形交叉熵,因为它可以确保稳定性as documented:
max(x, 0) - x * z + log(1 + exp(-abs(x)))
2)做一些weigh normalization可能会大声疾呼。
3)保持正则化损失小。 您可以阅读this answer了解更多信息。
4)我看不到tf.abs L1距离的必要性。
这是我修改的代码。希望能帮助到你。
mode = "training"
rl_rate = .1
with tf.device('/gpu:0'):
h1 = siamese(feed_image1)
h2 = siamese(feed_image2)
l1_dist = tf.subtract(h1, h2)
# is it necessary to use abs?
l1_dist_norm = tf.layers.batch_normalization(l1_dist, training=(mode=="training"))
with tf.variable_scope('logits') as scope:
w = tf.get_variable('fully_connected_weights', [tf.shape(l1_dist)[-1], 1],
weights_initializer = tf.contrib.layers.xavier_initializer(uniform=False), weights_regularizer = tf.contrib.layers.l2_regularizer(tf.constant(0.001, dtype=tf.float32))
)
logits = tf.tensordot(l1_dist_norm, w, axis=1)
xent_loss = tf.nn.sigmoid_cross_entropy_with_logits(logits=logits, labels=feed_labels)
total_loss = tf.add(tf.reduce_sum(rl_rate * tf.abs(tf.get_collection(tf.GraphKeys.REGULARIZATION_LOSSES))), (1-rl_rate) * xent_loss, name='total_loss')
# or:
# weights = tf.get_collection(tf.GraphKeys.REGULARIZATION_LOSSES)
# l1_regularizer = tf.contrib.layers.l1_regularizer()
# regularization_loss = tf.contrib.layers.apply_regularization(l1_regularizer, weights)
# total_loss = xent_loss + regularization_loss
with tf.variable_scope('adam_optimizer') as scope:
optimizer = tf.train.AdamOptimizer(learning_rate=0.0005)
opt = tf.contrib.layers.optimize_loss(total_loss, global_step, learning_rate=learning_rate, optimizer="Adam", clip_gradients=max_grad_norm, summaries=["gradients"])