TensorFlow中的二进制分类,损失和准确度的意外大值

时间:2016-11-20 20:34:57

标签: python machine-learning neural-network tensorflow logistic-regression

我正在尝试使用深度神经网络架构来对二进制标签值-1和+1进行分类。以下是我在tensorflow中执行此操作的代码。

import tensorflow as tf
import numpy as np
from preprocess import create_feature_sets_and_labels

train_x,train_y,test_x,test_y = create_feature_sets_and_labels()

x = tf.placeholder('float', [None, 5])
y = tf.placeholder('float')

n_nodes_hl1 = 500
n_nodes_hl2 = 500
n_nodes_hl3 = 500

n_classes = 1
batch_size = 100

def neural_network_model(data):

    hidden_1_layer = {'weights':tf.Variable(tf.random_normal([5, n_nodes_hl1])),
                      'biases':tf.Variable(tf.random_normal([n_nodes_hl1]))}

    hidden_2_layer = {'weights':tf.Variable(tf.random_normal([n_nodes_hl1, n_nodes_hl2])),
                      'biases':tf.Variable(tf.random_normal([n_nodes_hl2]))}

    hidden_3_layer = {'weights':tf.Variable(tf.random_normal([n_nodes_hl2, n_nodes_hl3])),
                      'biases':tf.Variable(tf.random_normal([n_nodes_hl3]))}

    output_layer = {'weights':tf.Variable(tf.random_normal([n_nodes_hl3, n_classes])),
                      'biases':tf.Variable(tf.random_normal([n_classes]))}


    l1 = tf.add(tf.matmul(data, hidden_1_layer['weights']), hidden_1_layer['biases'])
    l1 = tf.nn.relu(l1)

    l2 = tf.add(tf.matmul(l1, hidden_2_layer['weights']), hidden_2_layer['biases'])
    l2 = tf.nn.relu(l2)

    l3 = tf.add(tf.matmul(l2, hidden_3_layer['weights']), hidden_3_layer['biases'])
    l3 = tf.nn.relu(l3)

    output = tf.transpose(tf.add(tf.matmul(l3, output_layer['weights']), output_layer['biases']))
    return output



def train_neural_network(x):
    prediction = neural_network_model(x)
    cost = tf.reduce_mean(tf.nn.sigmoid_cross_entropy_with_logits(prediction, y))
    optimizer = tf.train.AdamOptimizer().minimize(cost)

    hm_epochs = 10

    with tf.Session() as sess:
        sess.run(tf.initialize_all_variables())

        for epoch in range(hm_epochs):
            epoch_loss = 0
            i = 0
            while i < len(train_x):
                start = i
                end = i + batch_size
                batch_x = np.array(train_x[start:end])
                batch_y = np.array(train_y[start:end])

                _, c = sess.run([optimizer, cost], feed_dict={x: batch_x,
                                              y: batch_y})
                epoch_loss += c
                i+=batch_size

            print('Epoch', epoch, 'completed out of', hm_epochs, 'loss:', epoch_loss)

        # correct = tf.equal(tf.argmax(prediction, 1), tf.argmax(y, 1))
        # accuracy = tf.reduce_mean(tf.cast(correct, 'float'))

        print (test_x.shape)
        accuracy = tf.nn.l2_loss(prediction-y,name="squared_error_test_cost")/test_x.shape[0]
        print('Accuracy:', accuracy.eval({x: test_x, y: test_y}))

train_neural_network(x)

这是我运行时获得的输出:

('Epoch', 0, 'completed out of', 10, 'loss:', -8400.2424869537354)
('Epoch', 1, 'completed out of', 10, 'loss:', -78980.956665039062)
('Epoch', 2, 'completed out of', 10, 'loss:', -152401.86713409424)
('Epoch', 3, 'completed out of', 10, 'loss:', -184913.46441650391)
('Epoch', 4, 'completed out of', 10, 'loss:', -165563.44775390625)
('Epoch', 5, 'completed out of', 10, 'loss:', -360394.44857788086)
('Epoch', 6, 'completed out of', 10, 'loss:', -475697.51550292969)
('Epoch', 7, 'completed out of', 10, 'loss:', -588638.92993164062)
('Epoch', 8, 'completed out of', 10, 'loss:', -745006.15966796875)
('Epoch', 9, 'completed out of', 10, 'loss:', -900172.41955566406)
(805, 5)
('Accuracy:', 5.8077128e+09)

我不明白我得到的值是否正确,因为非MNIST二元分类示例确实存在缺陷。准确性与我的预期完全不同。我期待一个百分比而不是那么大的价值。

我也不确定机器学习背后的理论,这就是为什么我无法用张量流来说明我的方法的正确性。

有人可以告诉我,我的二元分类方法是否正确? 我的代码的准确性部分也是正确的吗?

1 个答案:

答案 0 :(得分:7)

由此:

  

二进制标签值 - -1和+1

。 。 。我假设train_ytest_y中的值实际上是-1.0和+1.0

对于您选择的损失函数sigmoid_cross_entropy_with_logits,假设为0.0和+1.0,这不会很好。负y值导致混乱!但是,损失函数选择适用于二进制分类。我建议您将y值更改为0和1。

此外,从技术上讲,您的网络输出不是最终预测。损失函数sigmoid_cross_entropy_with_logits旨在与输出层中具有sigmoid传递函数的网络一起使用,尽管你已经正确地在完成之前应用了损失函数。所以你的训练代码看起来是正确的

我对tf.transpose不是100%肯定 - 我会看到如果你删除它会发生什么,我个人就是这样。

output = tf.add(tf.matmul(l3, output_layer['weights']), output_layer['biases'])

无论哪种方式,这都是“logit”输出,但不是你的预测。对于非常自信的预测,output的值可能会很高,这可能会因为缺少sigmoid函数而导致后来的非常高的值。所以添加一个预测张量(这表示该例子在正类中的概率/置信度):

prediction = tf.sigmoid(output)

您可以使用它来计算准确性。您的准确度计算不应基于L2错误,而应基于正确值的总和 - 更接近您已注释掉的代码(似乎来自多类分类)。要与二进制分类的真/假进行比较,您需要对预测进行阈值处理,并与真实标签进行比较。像这样:

 predicted_class = tf.greater(prediction,0.5)
 correct = tf.equal(predicted_class, tf.equal(y,1.0))
 accuracy = tf.reduce_mean( tf.cast(correct, 'float') )

准确度值应介于0.0和1.0之间。如果你想要百分比,当然要乘以100。