我想看看,基于完全相同的功能(非目标变量),我的数据是否可以达到高精度,这是我的数据:
X1 X2 X3 X4 y
2 3 4 5 1
5 2 3 2 0
2 3 4 5 1
5 2 2 2 0
4 3 2 5 1
2 3 4 5 0
5 2 2 2 0
我想看到的是
X1 X2 X3 X4 y
2 3 4 5 1
2 3 4 5 1
2 3 4 5 0
5 2 2 2 0
5 2 2 2 0
所以我可以对这个完全相同的功能进行诊断,任何消化?
答案 0 :(得分:1)
您想使用pd.DataFrame.duplicated
。包含参数keep=False
以识别具有重复的所有行。
df[df.drop('y', 1).duplicated(keep=False)]
X1 X2 X3 X4 y
0 2 3 4 5 1
2 2 3 4 5 1
3 5 2 2 2 0
5 2 3 4 5 0
6 5 2 2 2 0
请注意我drop('y', 1)
以删除'y'
列。这样做的目的是将重复评估限制在非'y'
列。
我们也可以使用subset
的{{1}}参数。
duplicated