Question

我正在使用此数据集census.csv

代码：

df = pd.read_csv('Data/census.csv')
df = df[df['SUMLEV']==50]

print(df.head())

这是我的数据的样子：

   SUMLEV  REGION  DIVISION  ...  RNETMIG2013  RNETMIG2014 RNETMIG2015
1      50       3         6  ...    -2.722002     2.592270   -2.187333
2      50       3         6  ...    22.727626    20.317142   18.293499
3      50       3         6  ...    -7.167664    -3.978583  -10.543299
4      50       3         6  ...    -5.403729     0.754533    1.107861
5      50       3         6  ...    -1.402476    -1.577232   -0.884411

在按“ STNAME”分组后，我想汇总两列：

(df.set_index('STNAME').groupby(level=0)['POPESTIMATE2010','POPESTIMATE2011'].agg(Avg= np.average, Sum = np.sum))

错误：

----> 3 (df.set_index('STNAME').groupby(level=0)['POPESTIMATE2010','POPESTIMATE2011'].agg(Avg= np.average, Sum = np.sum))

f:\software_installations\anaconda3\lib\site-packages\pandas\core\groupby\generic.py in aggregate(self, func, *args, **kwargs)
    922         elif func is None:
    923             # nicer error message
--> 924             raise TypeError("Must provide 'func' or tuples of '(column, aggfunc).")
    925 
    926         func = _maybe_mangle_lambdas(func)

TypeError: Must provide 'func' or tuples of '(column, aggfunc).

Answer 1

尽管其他人很快给出了单行代码片段，但我尝试对有关您拥有的选项种类以及熊猫agg()函数所理解的语法有更多解释。 / em>

我们要处理什么？

您要处理的对象的类型是

type(df.set_index('STNAME').groupby(level=0)[['POPESTIMATE2010','POPESTIMATE2011']]) # pandas.core.groupby.generic.DataFrameGroupBy

因此，也许可以开始研究pandas.DataFrameGroupby.agg
的文档了。
文档怎么说？

赋予agg的自变量可以是

(1) string (function name) (2) function (3) list of functions (4) dict of column names -> functions (or list of functions).

（1）字符串（函数名称）

如果将函数名称字符串作为参数，则它必须是“ pandas可以理解的函数名称”。可以理解的函数名称至少为：'sum','mean','std'。示例：

In [24]: df.set_index('STNAME').groupby(level=0)[['POPESTIMATE2010','POPESTIMATE2011']].agg('mean') Out[24]: POPESTIMATE2010 POPESTIMATE2011 STNAME Alabama 71420.313433 71658.328358 Alaska 24621.413793 24921.379310 Arizona 427213.866667 431248.800000 ...

由于要计算两件事：平均值和和，因此需要两个函数调用。一个带有“平均值”，另一个带有“和”。

（2）函数

您还可以将任何函数作为参数。该函数应将类似数组的数据（pd.Series）作为输入，并从中产生标量值。示例：

In [25]: df.set_index('STNAME').groupby(level=0)[['POPESTIMATE2010','POPESTIMATE2011']].agg(np.mean) Out[25]: POPESTIMATE2010 POPESTIMATE2011 STNAME Alabama 71420.313433 71658.328358 Alaska 24621.413793 24921.379310 ...

由于要计算两件事：平均值和和，因此需要两个函数调用。一个带有np.mean，另一个带有np.sum。

（3）功能列表

您还可以为agg()的参数提供函数列表。示例：

In [27]: df.set_index('STNAME').groupby(level=0)[['POPESTIMATE2010','POPESTIMATE2011']].agg([np.mean, np.sum]) Out[27]: POPESTIMATE2010 POPESTIMATE2011 mean sum mean sum STNAME Alabama 71420.313433 4785161 71658.328358 4801108 Alaska 24621.413793 714021 24921.379310 722720 Arizona 427213.866667 6408208 431248.800000 6468732 ...

这样做的好处是您只需要一个函数调用。 如果要使用多列计算相同的操作，请使用此功能

（4）指向列名->函数

如果您将字典作为agg()的参数，则键必须表示数据框中的列名，并且值应为功能或功能列表。示例：

In [30]: In [27]: df.set_index('STNAME').groupby(level=0)[['POPESTIMATE2010','POPESTIMATE2011']].agg({"POPESTIMATE2010": [np.mean, np.sum], "POPESTIMATE2011": [np.mean, np.sum]}) Out[30]: POPESTIMATE2010 POPESTIMATE2011 average sum mean sum STNAME Alabama 71420.313433 4785161 71658.328358 4801108 Alaska 24621.413793 714021 24921.379310 722720 Arizona 427213.866667 6408208 431248.800000 6468732 ...

这样做的好处是您只需要一个函数调用。 如果要用不同的列计算不同的运算，请使用此功能

Answer 2

怎么样：

df.groupby('STNAME')[['POPESTIMATE2010','POPESTIMATE2011']].agg(['mean', 'sum'])

请注意，在这种情况下，您需要在groupby之后加上双方括号。

Answer 3

尝试一下

import numpy as np

df.set_index('STNAME').groupby(level=0).agg(
    {"POPESTIMATE2010": [np.average, np.sum], "POPESTIMATE2011": [np.average, np.sum]})

Answer 4

正如您所看到的Error，它清楚地表明我们必须指定（column，aggfunc）的函数或元组。

以下是调用agg函数的正确方法

df.set_index('STNAME').groupby(level=0)[['POPESTIMATE2010','POPESTIMATE2011']].agg(['mean','sum'])

如果您注意到groupby（[[]]）后面的双括号是因为熊猫建议否则，您将收到以下警告

FutureWarning: Indexing with multiple keys (implicitly converted to a tuple of keys) will be deprecated, use a list instead.

另外，您正在使用np.avarage，它可以为空的切片加温，如下所示：

RuntimeWarning: Mean of empty slice.

熊猫：DataFrameGroupby的汇总

4 个答案:

我们要处理什么？

文档怎么说？

（1）字符串（函数名称）

（2）函数

（3）功能列表

（4）指向列名->函数