我是python的新手,抱歉我犯了任何错误,希望你能理解我。
我有一个问题就像丢弃重复行一样退出。但是在这里我查看1,2和2,1相同。并且pandas数据框中没有任何实际重复的项目。例如,我有df as
first second
1 2
2 1
2 4
4 2
我需要df最终成为:
first second
1 2
2 4
如何解决这个问题。 提前谢谢。
这是另一个问题,数据帧有1860000行,因此使用此方法时会引发内存错误。有没有办法解决这个问题?
答案 0 :(得分:1)
您可以apply
使用sorted
,然后使用drop_duplicates
:
print (df.apply(sorted, axis=1))
first second
0 1 2
1 1 2
2 2 4
3 2 4
df = df.apply(sorted, axis=1).drop_duplicates()
print (df)
first second
0 1 2
2 2 4