Question

我正在尝试删除数据框中的重复列值。

我的代码如下

xls = pd.ExcelFile('Base File.xlsx');

mapping_df = xls.parse('Mapping');
engagement_data_df = xls.parse('Detail Report');
engagement_data_df =engagement_data_df.loc[:,~engagement_data_df.columns.duplicated()]

我有两个名为'BCS Attached Flag'的重复列。我尝试用上面的代码重复删除列，但没有运气。我可以问我做错了吗？

阿德里安

编辑：似乎重复列附加了附加的.1但在csv文件中，BCS附加标志列都在那里。我做了一个印刷品（engagement_data_df.head（10））

Division Region BCS Attached Flag BCSAttached Flag.1 
China   China A Y                  Y    
Singapore Singapore B Y            Y

Answer 1

我认为您只需先提取文字，然后拨打duplicated：

m = ~engagement_data_df.columns.str.extract('([a-zA-Z]+)', expand=False).duplicated()
engagement_data_df = engagement_data_df.loc[:, m]

Python Pandas删除重复的代码无法正常工作

1 个答案: