如何在机器前学习诊断中看到完全相同的特征

时间:2017-10-13 04:04:37

标签: python pandas dataframe

我想看看,基于完全相同的功能(非目标变量),我的数据是否可以达到高精度,这是我的数据:

X1 X2 X3 X4 y
2  3  4  5  1
5  2  3  2  0
2  3  4  5  1
5  2  2  2  0
4  3  2  5  1
2  3  4  5  0
5  2  2  2  0

我想看到的是

X1 X2 X3 X4 y
2  3  4  5  1
2  3  4  5  1
2  3  4  5  0
5  2  2  2  0
5  2  2  2  0

所以我可以对这个完全相同的功能进行诊断,任何消化?

1 个答案:

答案 0 :(得分:1)

您想使用pd.DataFrame.duplicated。包含参数keep=False以识别具有重复的所有行。

df[df.drop('y', 1).duplicated(keep=False)]

   X1  X2  X3  X4  y
0   2   3   4   5  1
2   2   3   4   5  1
3   5   2   2   2  0
5   2   3   4   5  0
6   5   2   2   2  0

请注意我drop('y', 1)以删除'y'列。这样做的目的是将重复评估限制在非'y'列。  我们也可以使用subset的{​​{1}}参数。

duplicated