df_train = pd.read_csv('../xyz.csv')
headers = df_train.columns
我要过滤掉子字符串中带有_pct
的标头中的那些列。
答案 0 :(得分:1)
df = pd.DataFrame({'a':[1,2,3], 'b_pct':[1,2,3],'c_pct':[1,2,3],'d':[1]*3})
print(df.filter(items=[i for i in df.columns if '_pct' not in i]))
## or as jezrael suggested
# print(df[[i for i in df.columns if '_pct' not in i]])
输出:
a d
0 1 1
1 2 1
2 3 1
答案 1 :(得分:1)
使用:
#data from AkshayNevrekar answer
df = df.loc[:, ~df.columns.str.contains('_pct')]
print (df)
过滤器解决方案并不简单:
df = df.filter(regex=r'^(?!.*_pct).*$')
a d
0 1 1
1 2 1
2 3 1
谢谢@IanS提供的另一种解决方案:
df[df.columns.difference(df.filter(like='_pct').columns).tolist()]
df.drop(df.filter(like='_pct').columns, axis=1)
答案 2 :(得分:0)
由于df.columns
返回列名的列表,因此您可以使用列表推导并以简单的条件构建新列表:
new_headers = [x for x in headers if '_pct' not in x]