我正在尝试删除数据框中的重复列值。
我的代码如下
xls = pd.ExcelFile('Base File.xlsx');
mapping_df = xls.parse('Mapping');
engagement_data_df = xls.parse('Detail Report');
engagement_data_df =engagement_data_df.loc[:,~engagement_data_df.columns.duplicated()]
我有两个名为'BCS Attached Flag'的重复列。我尝试用上面的代码重复删除列,但没有运气。我可以问我做错了吗?
阿德里安
编辑:似乎重复列附加了附加的.1但在csv文件中,BCS附加标志列都在那里。我做了一个印刷品(engagement_data_df.head(10))
Division Region BCS Attached Flag BCSAttached Flag.1
China China A Y Y
Singapore Singapore B Y Y
答案 0 :(得分:1)
我认为您只需先提取文字,然后拨打duplicated
:
m = ~engagement_data_df.columns.str.extract('([a-zA-Z]+)', expand=False).duplicated()
engagement_data_df = engagement_data_df.loc[:, m]