使用Python使我的逻辑回归测试精度更接近于我的训练精度

时间:2019-04-02 23:10:51

标签: python logistic-regression hyperparameters

我有一个包含656个因子的篮球统计数据。我正在使用逻辑回归分类器通过从团队2的统计数据中减去团队1的统计数据来预测赢家和输家(团队1的胜利或团队2的胜利)。除了规范化之外,我如何才能提高测试集的准确性以使其更接近训练集的准确性,或者只是提高总体准确性?

我认为规范化是一种可能的解决方案,但是由于我做的是统计差异,因此大多数值都在同一范围内

代码:

X = final_data_array[:,:656]

Y = final_data_array[:,656]

X_train, X_test, Y_train, Y_test = train_test_split(X, Y)

logistic = LogisticRegression(solver='lbfgs', max_iter=4000000, multi_class='multinomial').fit(X_train, Y_train)

print(logistic.score(X_test, Y_test))

print(logistic.score(X_train, Y_train))

0.7818791946308725

0.9069506726457399

1 个答案:

答案 0 :(得分:0)

您可以尝试对数据集进行一些特征工程设计,然后再对数据集进行规范化并检查准确性。我还建议您尝试使用其他分类算法,例如xgbclassifier,随机森林分类器等。