二元分类(逻辑回归)以高精度预测错误标签

时间:2017-06-20 11:22:49

标签: scikit-learn logistic-regression predict

我有一个问题是二元Logistic回归(使用scikit-learn python = 2.7)分类,它以高精度预测错误/相反的类。也就是说,在拟合模型之后,每个类的预测分数和预测概率非常一致但总是错误的类。我无法共享数据,但我的方法的一些伪代码是:

X = np.vstack((cond_1, cond_2))  # shape of X = 200*51102
y = np.concatenate([np.zeros(len(cond_1)), np.ones(len(cond_2)])

scls = []
clfs = []
scores = []

for train, test in cv.split(X, y):
    clf = LogisticRegression(C=1)
    scl = StandardScaler()
    scl.fit(X[train])
    X_train = scl.transform(X[train])
    scls.append(scl)
    X_test = scl.transform(X[test])
    clf.fit(X_train, y[train])
    y_pred = clf.predict(X_test)

    scores.append(roc_auc_score(y[test], y_pred))

roc_auc得分的平均值为0.065%,标准差为0.05%,所以似乎有所作为,但是什么?我已经绘制了特征,它们似乎正常分布。我也看看来自predict_proba的概率,对于错误的类/标签,它们大多在80%以上。

有什么想法和/或如何正确诊断问题?

我为无法提出更准确的问题而道歉,但我缺乏词汇量。

0 个答案:

没有答案