在没有迭代单个行的情况下,在给定的DataFrame中查找相同行的索引的pandas方法是什么?
虽然可以找到unique = df[df.duplicated()]
的所有唯一行,然后使用unique.iterrows()
迭代唯一条目并在pd.where()
的帮助下提取相等条目的索引,那么什么是做熊猫的方式呢?
示例: 给定以下结构的DataFrame:
| param_a | param_b | param_c
1 | 0 | 0 | 0
2 | 0 | 2 | 1
3 | 2 | 1 | 1
4 | 0 | 2 | 1
5 | 2 | 1 | 1
6 | 0 | 0 | 0
输出:
[(1, 6), (2, 4), (3, 5)]
答案 0 :(得分:6)
对所有欺骗行使用duplicated
参数{{3}},然后对所有列使用keep=False
,并将索引值转换为元组,最后将输出groupby
转换为Series
}:
list
如果你还想看到重复值:
df = df[df.duplicated(keep=False)]
df = df.groupby(df.columns.tolist()).apply(lambda x: tuple(x.index)).tolist()
print (df)
[(1, 6), (2, 4), (3, 5)]
答案 1 :(得分:1)
方法#1
这是一个受this post
启发的矢量化方法 -
def group_duplicate_index(df):
a = df.values
sidx = np.lexsort(a.T)
b = a[sidx]
m = np.concatenate(([False], (b[1:] == b[:-1]).all(1), [False] ))
idx = np.flatnonzero(m[1:] != m[:-1])
I = df.index[sidx].tolist()
return [I[i:j] for i,j in zip(idx[::2],idx[1::2]+1)]
示例运行 -
In [42]: df
Out[42]:
param_a param_b param_c
1 0 0 0
2 0 2 1
3 2 1 1
4 0 2 1
5 2 1 1
6 0 0 0
In [43]: group_duplicate_index(df)
Out[43]: [[1, 6], [3, 5], [2, 4]]
方法#2
对于整数编号的数据帧,我们可以将每一行减少到一个标量,这样我们就可以使用1D
数组,从而为我们提供更高性能的数据,就像这样 -
def group_duplicate_index_v2(df):
a = df.values
s = (a.max()+1)**np.arange(df.shape[1])
sidx = a.dot(s).argsort()
b = a[sidx]
m = np.concatenate(([False], (b[1:] == b[:-1]).all(1), [False] ))
idx = np.flatnonzero(m[1:] != m[:-1])
I = df.index[sidx].tolist()
return [I[i:j] for i,j in zip(idx[::2],idx[1::2]+1)]
运行时测试
其他方法 -
def groupby_app(df): # @jezrael's soln
df = df[df.duplicated(keep=False)]
df = df.groupby(df.columns.tolist()).apply(lambda x: tuple(x.index)).tolist()
return df
计时 -
In [274]: df = pd.DataFrame(np.random.randint(0,10,(100000,3)))
In [275]: %timeit group_duplicate_index(df)
10 loops, best of 3: 36.1 ms per loop
In [276]: %timeit group_duplicate_index_v2(df)
100 loops, best of 3: 15 ms per loop
In [277]: %timeit groupby_app(df) # @jezrael's soln
10 loops, best of 3: 25.9 ms per loop