假设我有一张看起来像这样的表:
Company Region Date Count Amount
AAA XXY 3-4-2018 766 8000
AAA XXY 3-14-2018 766 8600
AAA XXY 3-24-2018 766 2030
BBB XYY 2-4-2018 66 3400
BBB XYY 3-18-2018 66 8370
BBB XYY 4-6-2018 66 1380
我想摆脱Date列,然后按公司和地区汇总到 找到Count的平均值和金额的总和
预期产出:
Company Region Count Amount
AAA XXY 766 18630
BBB XYY 66 13150
我在这里查看了这篇文章,还有许多其他在线帖子,但看起来他们只是在执行一种聚合操作(例如,我可以通过多列聚合,但只能生成一个列输出作为总和OR计数,不算和数)
有人可以帮忙吗?
我做了什么:
我在这里发了这篇文章:
https://www.shanelynn.ie/summarising-aggregation-and-grouping-data-in-python-pandas/
但是,当我尝试使用本文中介绍的方法时(在文章的最后),使用字典:
aggregation = {
'Count': {
'Total Count': 'mean'
},
'Amount': {
'Total Amount': 'sum'
}
}
我会收到这个警告:
FutureWarning: using a dict with renaming is deprecated and will be removed in a future version
return super(DataFrameGroupBy, self).aggregate(arg, *args, **kwargs)
我知道它现在有效,但我想确保我的脚本也能在以后工作。如何更新我的代码以便将来兼容?
答案 0 :(得分:6)
需要通过单个非嵌套字典聚合,然后是rename
列:
aggregation = {'Count': 'mean', 'Amount': 'sum'}
cols_d = {'Count': 'Total Count', 'Amount': 'Total Amount'}
df = df.groupby(['Company','Region'], as_index=False).agg(aggregation).rename(columns=cols_d)
print (df)
Company Region Total Count Total Amount
0 AAA XXY 766 18630
1 BBB XYY 66 13150
使用add_prefix
代替rename
的另一种解决方案:
aggregation = {'Count': 'mean', 'Amount': 'sum'}
df = df.groupby(['Company','Region']).agg(aggregation).add_prefix('Total ').reset_index()
print (df)
Company Region Total Count Total Amount
0 AAA XXY 766 18630
1 BBB XYY 66 13150
答案 1 :(得分:1)
df.groupby(['Region', 'Company']).agg({'Count': 'mean', 'Amount': 'sum'}).reset_index()
输出:
Region Company Count Amount
0 XXY AAA 766 18630
1 XYY BBB 66 13150
答案 2 :(得分:0)
试试这个:
df.groupby(["Company","Region"]).agg({"Count":'mean',"Amount":'sum'})