我有一个包含656个因子的篮球统计数据。我正在使用逻辑回归分类器通过从团队2的统计数据中减去团队1的统计数据来预测赢家和输家(团队1的胜利或团队2的胜利)。除了规范化之外,我如何才能提高测试集的准确性以使其更接近训练集的准确性,或者只是提高总体准确性?
我认为规范化是一种可能的解决方案,但是由于我做的是统计差异,因此大多数值都在同一范围内
X = final_data_array[:,:656]
Y = final_data_array[:,656]
X_train, X_test, Y_train, Y_test = train_test_split(X, Y)
logistic = LogisticRegression(solver='lbfgs', max_iter=4000000, multi_class='multinomial').fit(X_train, Y_train)
print(logistic.score(X_test, Y_test))
print(logistic.score(X_train, Y_train))
0.7818791946308725
0.9069506726457399
答案 0 :(得分:0)
您可以尝试对数据集进行一些特征工程设计,然后再对数据集进行规范化并检查准确性。我还建议您尝试使用其他分类算法,例如xgbclassifier,随机森林分类器等。