Question

我在一个大型Python数据框上工作，请注意，某些列的每一行具有相同的值，但但列的名称不同。另外，某些值是文本或时间序列数据。

要摆脱这些重复的列并每次都保持第一很容易吗？

非常感谢

Answer 1

创建一个虚拟数据框，其中两个具有不同名称的列是重复的。

import pandas as pd
df=pd.DataFrame({
    'col1':[1,2,3,'b',5,6],
    'col2':[11,'a',13,14,15,16],
    'col3':[1,2,3,'b',5,6],
     
     })

    col1    col2    col3
0   1       11      1
1   2       a       2
2   3       13      3
3   b       14      b
4   5       15      5
5   6       16      6

要删除重复的列，请首先进行转置，然后应用drop_duplicate，然后再次进行转置

df.T.drop_duplicates().T

结果

    col1    col2
0   1       11
1   2       a
2   3       13
3   b       14
4   5       15
5   6       16

删除熊猫中的列

1 个答案: