从这个df开始的正确方法是什么:
>>> df=pd.DataFrame({'a':['jeff','bob','jill'], 'b':['bob','jeff','mike']})
>>> df
a b
0 jeff bob
1 bob jeff
2 jill mike
对此:
>>> df2
a b
0 jeff bob
2 jill mike
您根据' a'中的项目删除重复的行。和' b',而不考虑他们的具体专栏。
我可以使用lambda表达式组合解决方案来创建一个掩码,然后根据掩码列删除重复项,但我认为必须有一个比这更简单的方法:
>>> df['c'] = df[['a', 'b']].apply(lambda x: ''.join(sorted((x[0], x[1]), \
key=lambda x: x[0]) + sorted((x[0], x[1]), key=lambda x: x[1] )), axis=1)
>>> df.drop_duplicates(subset='c', keep='first', inplace=True)
>>> df = df.iloc[:,:-1]
答案 0 :(得分:3)
我认为您可以单独对每一行进行排序,然后使用复制来查看要删除的行。
dupes = df.apply(lambda x: x.sort_values().values, axis=1).duplicated()
df[~dupes]
获得欺骗的更快方法。感谢@DSM。
dupes = df.T.apply(sorted).T.duplicated()
答案 1 :(得分:2)
我认为最简单的方法是使用apply
和axis=1
按行排序,然后调用DataFrame.duplicated
:
df = df[~df.apply(sorted, 1).duplicated()]
print (df)
a b
0 jeff bob
2 jill mike
有点复杂,但非常快,是使用numpy.sort
和DataFrame
构造函数:
df1 = pd.DataFrame(np.sort(df.values, axis=1), index=df.index, columns=df.columns)
df = df[~df1.duplicated()]
print (df)
a b
0 jeff bob
2 jill mike
<强>计时强>:
np.random.seed(123)
N = 10000
df = pd.DataFrame({'A': np.random.randint(100,size=N).astype(str),
'B': np.random.randint(100,size=N).astype(str)})
#print (df)
In [63]: %timeit (df[~pd.DataFrame(np.sort(df.values, axis=1), index=df.index, columns=df.columns).duplicated()])
100 loops, best of 3: 3.25 ms per loop
In [64]: %timeit (df[~df.apply(sorted, 1).duplicated()])
1 loop, best of 3: 1.09 s per loop
#Ted Petrou solution1
In [65]: %timeit (df[~df.apply(lambda x: x.sort_values().values, axis=1).duplicated()])
1 loop, best of 3: 2.89 s per loop
#Ted Petrou solution2
In [66]: %timeit (df[~df.T.apply(sorted).T.duplicated()])
1 loop, best of 3: 1.56 s per loop