熊猫重命名多级外观列名称

时间:2020-01-16 21:26:26

标签: python pandas

我有一个数据框,其列名称已更改为

MultiIndex([(     'ID',       ''),
            ('Probability',   'mean'),
            ('Probability', 'median'),
            ('Uncertainty',   'mean'),
            ('Uncertainty', 'median')],
          )

因为我做了

data[data["ID"].notnull()].groupby(["ID"]).agg({"Probability":["mean", "median"], "Uncertainty":["mean", "median"]}).reset_index()

我想将列名重命名为这样的名称:

["ID", "Probability_mean", "Probability_median", "Uncertainty_mean", "Uncertainty_median"]

我可以分别重命名每个原始列名,但不能一起重命名。我还尝试展平数据框,因为我认为它是多索引或多级的。尽管看起来如此,但事实并非如此。大多数的多索引功能都不适用于它。有没有一种方法可以重命名这些列?我想念什么吗?

1 个答案:

答案 0 :(得分:2)

如果使用pd.__version__ > 0.25.0,则可以使用NamedAggs创建字典。

reset_index之前,您可以使用str.join在groupby之后折叠MultiIndex。然后reset_index。这样可以避免'ID'出现问题。另外,也不需要删除空组密钥,因为groupby在默认情况下会忽略它们。

样本数据

import pandas as pd
import numpy as np
N = 6
df = pd.DataFrame({'ID': np.arange(N)//2, 
                   'Probability': np.random.normal(0,1,N),
                   'Uncertainty': np.random.normal(0,1,N)})
agg_d = {'Probability': ['mean', 'median'], 'Uncertainty': ['mean', 'median']}

代码:

> = 0.25.0

d = {f'{k}_{x}': pd.NamedAgg(column=k, aggfunc=x) for k,v in agg_d.items() for x in v}
df.groupby('ID').agg(**d).reset_index()

<0.25.0

res = df.groupby('ID').agg(agg_d)
res.columns = ['_'.join(tup) for tup in res.columns]
res = res.reset_index()

输出:

   ID  Probability_mean  Probability_median  Uncertainty_mean  Uncertainty_median
0   0          0.795119            0.795119          0.466417            0.466417
1   1          0.150184            0.150184         -0.132942           -0.132942
2   2          1.250202            1.250202         -0.102760           -0.102760