Question

我有一个包含656个因子的篮球统计数据。我正在使用逻辑回归分类器通过从团队2的统计数据中减去团队1的统计数据来预测赢家和输家（团队1的胜利或团队2的胜利）。除了规范化之外，我如何才能提高测试集的准确性以使其更接近训练集的准确性，或者只是提高总体准确性？

我认为规范化是一种可能的解决方案，但是由于我做的是统计差异，因此大多数值都在同一范围内

代码：

X = final_data_array[:,:656]

Y = final_data_array[:,656]

X_train, X_test, Y_train, Y_test = train_test_split(X, Y)

logistic = LogisticRegression(solver='lbfgs', max_iter=4000000, multi_class='multinomial').fit(X_train, Y_train)

print(logistic.score(X_test, Y_test))

print(logistic.score(X_train, Y_train))

0.7818791946308725

0.9069506726457399

Answer 1

您可以尝试对数据集进行一些特征工程设计，然后再对数据集进行规范化并检查准确性。我还建议您尝试使用其他分类算法，例如xgbclassifier，随机森林分类器等。

使用Python使我的逻辑回归测试精度更接近于我的训练精度

代码：

1 个答案: