我的数据集的形状为2300 x 35
加上目标变量。
我的所有列都是object
dtype,它包含数字和分类值,因此我在整个数据集上运行labelencoding
。所以,我不确定这可能是问题。
我跑了Logistic Regression
,我的准确率达到了99%。这怎么可能?我能做错什么?
(从训练和测试集中删除目标列)
只有当我将训练数据减少到5%以下时,准确性才会下降,不知道发生了什么。
答案 0 :(得分:0)
这意味着一个或多个独立变量与目标变量高度相关。您可以在Jupyter笔记本中使用以下命令进行检查。
import seaborn as sns
mat.figure(figsize= (20, 10))
sns.heatmap({name_of_dataFrame}.corr(),annot= True)
您将获得带有值的corr图,因此请删除那些值较高的列。 我希望这能帮到您。