我的多索引df看起来像这样:
Value
date A B City
10-12-2019 14 10 California 15
12:00 Los Angeles 60
Chicago 80
10-12-2019 13 NaN California 15
12:20 Los Angeles 60
Chicago 80
10-12-2019 14 NaN California 10
12:40 Los Angeles 20
Chicago 60
10-12-2019 16 20 California 65
13:00 Los Angeles 20
Chicago 80
10-12-2019 16 NaN California 65
13:20 Los Angeles 20
Chicago 80
...
我想要的输出是
city California Los Angeles Chicago
date A B
10-12-2019 14 10 15 60 80
12:00
10-12-2019 13 NaN 15 60 80
12:20
10-12-2019 14 NaN 10 20 60
12:40
...
当我使用df = df.groupby(["date", "A", "B", "city"])["value"].mean().unstack("city")
时,由于B每小时,我会在20和40分钟内丢失信息。
最后,我想得到:
city California Los Angeles Chicago
date A B
10-12-2019 14.66 100 2500 3460 4080
11-12-2019 13.298 250 3500 3260 2880
其中,“日期”是所有小时和日期的减少时间,是一天,“ A”是所有列的平均值, 'B'是每小时所有值的总和,'city'是所有值的总和
请帮助我