Question

我的数据集的形状为2300 x 35加上目标变量。我的所有列都是object dtype，它包含数字和分类值，因此我在整个数据集上运行labelencoding。所以，我不确定这可能是问题。

我跑了Logistic Regression，我的准确率达到了99％。这怎么可能？我能做错什么？（从训练和测试集中删除目标列）

只有当我将训练数据减少到5％以下时，准确性才会下降，不知道发生了什么。

Answer 1

这意味着一个或多个独立变量与目标变量高度相关。您可以在Jupyter笔记本中使用以下命令进行检查。

import seaborn as sns    
mat.figure(figsize= (20, 10))
sns.heatmap({name_of_dataFrame}.corr(),annot= True)

您将获得带有值的corr图，因此请删除那些值较高的列。我希望这能帮到您。