我有一个问题是二元Logistic回归(使用scikit-learn python = 2.7)分类,它以高精度预测错误/相反的类。也就是说,在拟合模型之后,每个类的预测分数和预测概率非常一致但总是错误的类。我无法共享数据,但我的方法的一些伪代码是:
X = np.vstack((cond_1, cond_2)) # shape of X = 200*51102
y = np.concatenate([np.zeros(len(cond_1)), np.ones(len(cond_2)])
scls = []
clfs = []
scores = []
for train, test in cv.split(X, y):
clf = LogisticRegression(C=1)
scl = StandardScaler()
scl.fit(X[train])
X_train = scl.transform(X[train])
scls.append(scl)
X_test = scl.transform(X[test])
clf.fit(X_train, y[train])
y_pred = clf.predict(X_test)
scores.append(roc_auc_score(y[test], y_pred))
roc_auc得分的平均值为0.065%,标准差为0.05%,所以似乎有所作为,但是什么?我已经绘制了特征,它们似乎正常分布。我也看看来自predict_proba的概率,对于错误的类/标签,它们大多在80%以上。
有什么想法和/或如何正确诊断问题?
我为无法提出更准确的问题而道歉,但我缺乏词汇量。