尝试使用正则表达式重命名pandas数据框列,我知道如何按照以下方式重命名列表,但使用df.rename无法获得成功结果。
输入:
df.columns.values = ['Time', '101 <RoomTemperature> (C)', '102 <ChemberTemperature> (C)', '103 <U1100> (C)', '103 <U1200 (C)', '103 U1500> (C)']
根据以下使用正则表达式的代码对“重命名数据框”列进行的尝试,但不起作用。我想不出如何在df.rename方法中将多条指令放在一起。
df.rename(columns={c: c.strip() for c in df.columns.values.tolist()
if "<" and ">" in c:
re.search(r"(?<=<).*(?=>)",c).group(0)}, inplace=True)
我希望它遵循正则表达式并将其重命名为以下内容:
df.columns.values = ["Time", "RoomTemperature", "ChemberTemperature", "U1100", "103 <U1200 (C)", "103 U1500> (C)"]
答案 0 :(得分:2)
您可以将功能提取到功能中并执行以下操作:
import re
import pandas as pd
# sample data
df = pd.DataFrame(
columns=['Time', '101 <RoomTemperature> (C)', '102 <ChemberTemperature> (C)', '103 <U1100> (C)', '103 <U1200 (C)',
'103 U1500> (C)'])
# replacement function
def repl(name):
match = re.search(r"<(.*?)>", name)
return match.group(1) if match else name
df.rename(columns={c: repl(c.strip()) for c in df.columns}, inplace=True)
print(df.columns)
输出
Index(['Time', 'RoomTemperature', 'ChemberTemperature', 'U1100',
'103 <U1200 (C)', '103 U1500> (C)'],
dtype='object')
话虽如此,您还需要修复正则表达式。
答案 1 :(得分:1)
您可以根据需要使用正则表达式提取匹配组,然后可以使用DataFrame.rename
来更改列标签。
尝试一下:
import re
col_dict = {}
for col in df.columns:
mobj = re.search(r"\<(.*?)\>", col)
if mobj:
col_dict[col] = mobj.group(1)
df.rename(columns=col_dict, inplace=True)
重命名df.columns
后将是:
['Time', 'RoomTemperature', 'ChemberTemperature', 'U1100', '103 <U1200 (C)', '103 U1500> (C)']
答案 2 :(得分:1)
另一种解决方案,尽管功能强大,但regex可能会带来一些不友好的外观:
columns = ['Time', '101 <RoomTemperature> (C)', '102 <ChemberTemperature> (C)', '103 <U1100> (C)', '103 <U1200 (C)', '103 U1500> (C)']
df = pd.DataFrame([[1,2,3,4,5,6]],columns=columns)
p = re.compile(r'((?<=<).*?(?=>))')
#create a dict for the replacement
replace_dict = {w:p.search(w).group() for w in df.columns if p.search(w)}
#pass dictionary into rename method
df.rename(columns=replace_dict)