我在一个大型Python数据框上工作,请注意,某些列的每一行具有相同的值,但但列的名称不同。 另外,某些值是文本或时间序列数据。
要摆脱这些重复的列并每次都保持第一很容易吗?
非常感谢
答案 0 :(得分:1)
创建一个虚拟数据框,其中两个具有不同名称的列是重复的。
import pandas as pd
df=pd.DataFrame({
'col1':[1,2,3,'b',5,6],
'col2':[11,'a',13,14,15,16],
'col3':[1,2,3,'b',5,6],
})
col1 col2 col3
0 1 11 1
1 2 a 2
2 3 13 3
3 b 14 b
4 5 15 5
5 6 16 6
要删除重复的列,请首先进行转置,然后应用drop_duplicate,然后再次进行转置
df.T.drop_duplicates().T
结果
col1 col2
0 1 11
1 2 a
2 3 13
3 b 14
4 5 15
5 6 16