Question

我使用Keras lib构建了暹罗神经网络。我的模型有两个形状为（64,64,3）的输入，两个预训练的ResNet-50。损失函数是二进制交叉熵。

该模型基于本文a link

在训练过程中，我的性状/ val准确度非常好，大约为0.99 / 0.98，而损失率仅为0.01 / 0.05。

但是当我测试保存的模型时，我得到了不好的结果。该模型甚至无法识别两个相同的图片。

我也注意到了奇怪的行为：次数越多，结果越差。例如，比较两个相同的图像，训练后的 10个时期的模型可得出预测： “ 8.jpg”：0.5180479884147644 但是用 100 epoch 训练过的同一模型 “ 8.jpg”：5.579867080537926E-13 但是对于 100个时代，我的训练效果更好。

我为CNN尝试了不同的模型：ResNet18，不同的输入形状，例如（224,224,3）或（128,128,3）。

我也没有使用三合会训练模型，只有 ResNet50 / ResNet18 ，没有预先训练的体重。但是在测试真实模型时，我有同样糟糕的结果。

我的代码是

def create_base_model(image_shape, dropout_rate, suffix=''):
    I1 = Input(shape=image_shape)
    model = ResNet50(include_top=False, weights='imagenet', input_tensor=I1, pooling=None)
    model.layers.pop()
    model.outputs = [model.layers[-1].output]
    model.layers[-1].outbound_nodes = []

    for layer in model.layers:
        layer.name = layer.name + str(suffix)
        layer.trainable = False

    flatten_name = 'flatten' + str(suffix)

    x = model.output
    x = Flatten(name=flatten_name)(x)
    x = Dense(1024, activation='relu')(x)
    x = Dropout(dropout_rate)(x)
    x = Dense(512, activation='relu')(x)
    x = Dropout(dropout_rate)(x)

    return x, model.input


def create_siamese_model(image_shape, dropout_rate):

    output_left, input_left = create_base_model(image_shape, dropout_rate)
    output_right, input_right = create_base_model(image_shape, dropout_rate, suffix="_2")

    L1_layer = Lambda(lambda tensors: tf.abs(tensors[0] - tensors[1]))
    L1_distance = L1_layer([output_left, output_right])
    L1_prediction = Dense(1, use_bias=True,
                          activation='sigmoid',
                          kernel_initializer=RandomNormal(mean=0.0, stddev=0.001),
                          name='weighted-average')(L1_distance)

    prediction = Dropout(0.2)(L1_prediction)

    siamese_model = Model(inputs=[input_left, input_right], outputs=prediction)

    return siamese_model

siamese_model = create_siamese_model(image_shape=(64, 64, 3),
                                         dropout_rate=0.2)

siamese_model.compile(loss='binary_crossentropy',
                      optimizer=Adam(lr=0.0001),
                      metrics=['binary_crossentropy', 'acc'])
siamese_model.fit_generator(train_gen,
                            steps_per_epoch=1000,
                            epochs=10,
                            verbose=1,
                            callbacks=[checkpoint, tensor_board_callback, lr_reducer, early_stopper, csv_logger],
                            validation_data=validation_data,
                            max_q_size=3)

siamese_model.save('siamese_model.h5')



# and the my prediction
siamese_net = load_model('siamese_model.h5', custom_objects={"tf": tf})

X_1 = [image, ] * len(markers)
batch = [markers, X_1]
result = siamese_net.predict_on_batch(batch)

# I've tried also to check identical images 
markers = [image]
X_1 = [image, ] * len(markers)
batch = [markers, X_1]
result = siamese_net.predict_on_batch(batch)

我对我的预测方法有些怀疑。有人可以帮我找到预测的问题吗？

Answer 1

期望得到的。我不确定你的意思

我还注意到奇怪的行为：历元数越多，结果越差。

但是您显示的结果是有效且预期的。让我们从模型的输出开始。您的模型输出是第一和第二输入之间的（规范化）距离。如果输入相似，则距离应接近零。随着训练步骤数量的增加，模型将学习识别输入，即如果输入相似，则模型将学习输出接近零的值，如果输入不同，则模型将学习输出接近一的值。因此，

...训练有10个历元的模型给出了预测：“ 8.jpg”：0.5180479884147644，但是训练有100个纪元的相同模型给出了“ 8.jpg”：5.579867080537926E-13但是对于100个历元，我有更好的训练结果。

，确认模型已获悉两个输入相似并且输出5.579867080537926E-13 ~ 0（大约接近0）。

尽管模型运行良好，但是我在模型定义中发现了一个问题：-输出层是辍学层。辍学无效的输出层。通过此设置，您正在随机以0.2的概率将模型的输出设置为零。

让我们假设目标变量具有1（两个输入是不同的），并且模型已学会正确识别图像，并在退出层之前输出接近1的值。让我们进一步假设辍学层已决定将输出设置为零。因此模型输出将为零。即使辍学层之前的层表现良好，但由于辍学层，它们将受到惩罚。如果这不是您要查找的内容，请删除最后一个辍学层。

L1_prediction = Dense(1, use_bias=True,
                    activation='sigmoid',
                    kernel_initializer=RandomNormal(mean=0.0, stddev=0.001),
                    name='weighted-average')(L1_distance)


siamese_model = Model(inputs=[input_left, input_right], outputs=L1_prediction)

但是，如果要向模型添加噪声，有时会需要这种行为。与值为1时随机更改目标变量的效果相同。

具有两个预训练的ResNet 50的暹罗神经网络-测试模型时的行为异常

1 个答案: