Question

我想看看，基于完全相同的功能（非目标变量），我的数据是否可以达到高精度，这是我的数据：

X1 X2 X3 X4 y
2  3  4  5  1
5  2  3  2  0
2  3  4  5  1
5  2  2  2  0
4  3  2  5  1
2  3  4  5  0
5  2  2  2  0

我想看到的是

X1 X2 X3 X4 y
2  3  4  5  1
2  3  4  5  1
2  3  4  5  0
5  2  2  2  0
5  2  2  2  0

所以我可以对这个完全相同的功能进行诊断，任何消化？

Answer 1

您想使用pd.DataFrame.duplicated。包含参数keep=False以识别具有重复的所有行。

df[df.drop('y', 1).duplicated(keep=False)]

   X1  X2  X3  X4  y
0   2   3   4   5  1
2   2   3   4   5  1
3   5   2   2   2  0
5   2   3   4   5  0
6   5   2   2   2  0

请注意我drop('y', 1)以删除'y'列。这样做的目的是将重复评估限制在非'y'列。我们也可以使用subset的{{1}}参数。

duplicated

如何在机器前学习诊断中看到完全相同的特征

1 个答案: