keras sequence()。predict(x_test)对于两个类仅返回1列

时间:2018-10-15 19:55:00

标签: python neural-network keras sequential

我在使用Keras sequential().predict(x_test)时遇到问题。

使用sequential().predict_proba(x_test)获得相同的输出,因为我发现这两个在顺序上已经无关紧要了。

我的数据有两个类别:0或1,我相信predict(x_test)应该给出两列,其中第一列是获得0的概率,第二列是获得1的概率。但是我只有一列与此。

    In [85]:y_train.value_counts()
    Out[85]: 
    0    616751
    1     11140
    Name: _merge, dtype: int64

我的数据应该没有问题,因为我对LogisticRegression模型和神经网络模型使用了相同的x_train,y_train,x_test,y_test,它在LogisticRegression中运行完美。

In [87]:y_pred_LR
Out[87]: 
array([[  9.96117151e-01,   3.88284921e-03],
       [  9.99767583e-01,   2.32417329e-04],
       [  9.87375774e-01,   1.26242258e-02],
       ..., 
       [  9.72159138e-01,   2.78408623e-02],
       [  9.97232916e-01,   2.76708432e-03],
       [  9.98146985e-01,   1.85301489e-03]])

但是我在神经网络模型中只得到一列。

所以我想NN模型的设置有问题吗?这是我的密码

NN = Sequential()
NN.add(Dense(40, input_dim = 65, kernel_initializer = 'uniform', activation = 'relu'))
NN.add(Dense(20, kernel_initializer = 'uniform', activation = 'relu'))
NN.add(Dense(1, kernel_initializer = 'uniform', activation = 'sigmoid'))
NN.compile(optimizer = 'adam', loss = 'binary_crossentropy', metrics = ['accuracy'])

NN.fit(x_train, y_train, batch_size = 50, epochs=5)
y_pred_NN = NN.predict(x_test)
print(y_pred_NN)

    In [86]: print(y_pred_NN)
    [[ 0.00157279]
     [ 0.0010451 ]
     [ 0.03178826]
     ..., 
     [ 0.01030775]
     [ 0.00584918]
     [ 0.00186538]]

实际上看起来是获得1的概率? 任何帮助表示赞赏!

两个模型中我的预测形状如下

In [91]:y_pred_LR.shape
Out[91]: (300000, 2)

In [90]:y_pred_NN.shape
Out[90]: (300000, 1)

2 个答案:

答案 0 :(得分:1)

如果要输出两个概率,则必须将y_train替换为to_categorical(y_train),然后相应地调整网络:

from keras.utils import to_categorical

NN = Sequential()
NN.add(Dense(40, input_dim = 65, kernel_initializer = 'uniform', activation = 'relu'))
NN.add(Dense(20, kernel_initializer = 'uniform', activation = 'relu'))
NN.add(Dense(2, activation='sigmoid'))
NN.compile(optimizer = 'adam', loss = 'binary_crossentropy', metrics = ['accuracy'])

NN.fit(x_train, to_categorical(y_train), batch_size = 50, epochs=5)

在这里咨询:https://keras.io/utils/#to_categorical

答案 1 :(得分:1)

模型的最后一行定义输出层。

NN.add(Dense(1, kernel_initializer = 'uniform', activation = 'sigmoid'))

您的最后一行有一个节点,具有S型激活。这意味着您的输出将是0到1之间的单个数字(每个输入样本),根据逻辑回归,我相信您可以将其解释为P(y = 1)。

如果有两个以上的类,则在输出层中将有n_classes

NN.add(Dense(n_classes, kernel_initializer = 'uniform', activation = 'softmax'))

softmax确保概率之和为1。当然,您必须对训练的y值进行一次热编码。

根据您的情况,您可以在两种方法之间进行选择。我赞成第二种,因为它允许您将来添加更多的类。