熊猫集团通过自定义功能

时间:2015-12-09 01:40:06

标签: python python-3.x pandas group-by aggregate-functions

这应该很简单。我想要的是能够按函数的结果进行分组,就像在SQL中你可以按表达式分组:

SELECT substr(name, 1) as letter, COUNT(*) as count
FROM table
GROUP BY substr(name, 1)

这会计算名称列以字母表中每个字母开头的行数。

我想在python中做同样的事情,所以我假设我可以将一个函数传递给groupby。但是这只会将索引列(第一列)传递给函数,例如0,1或2.我想要的是名称列:

import pandas

# Return the first letter
def first_letter(row):

    # row is 0, then 1, then 2 etc.
    return row.name[0]

#Generate a data set of words
test = pandas.DataFrame({'name': ["benevolent", "hidden", "absurdity", "anonymous", "furious", "antidemocratic", "honeydew"]})

#              name
# 0      benevolent
# 1          hidden
# 2       absurdity
# 3       anonymous
# 4         furious
# 5  antidemocratic
# 6        honeydew

test.groupby(first_letter)

我在这里做错了什么。如何通过行索引以外的其他方式组合?

2 个答案:

答案 0 :(得分:6)

为第一个字母创建一个新列:

def first_letter(row):
    return row[0]

test['first'] = test['name'].apply(first_letter)

并将其分组:

group = test.groupby('first')

使用它:

>>> group.count()

     name
first      
a         3
b         1
f         1
h         2

答案 1 :(得分:2)

您通常希望在字符串列上使用向量化str运算符。使用get(0)提取第一个字母,然后在groupby操作中使用。最后,我们采用count结果。

以下是working with text data的Pandas文档的链接。

请注意,您可以将正则表达式用于extract更复杂的表达式。

>>> test.groupby(test['name'].str.get(0))['name'].count()
name
a       3
b       1
f       1
h       2
Name: name, dtype: int64

更一般地说,您的函数应该返回数据框中的唯一项,并将其与索引隐式组合在一起。

例如,可以使用对数字进行舍入的函数对舍入数字进行分组。

df = pd.DataFrame({'A': [0.25, 0.75, 2.6, 2.7, 2.8]})

>>> np.round(df.A)
0    0
1    1
2    3
3    3
4    3
Name: A, dtype: float64

>>> df.groupby(np.round(df.A)).mean()
      A
A      
0  0.25
1  0.75
3  2.70

自定义函数应该应用于一系列数据框,一个布尔运算符,例如:

def ge_two(series):
    return series >= 2

>>> df.groupby(ge_two(df.A)).sum()
         A
A         
False  1.0
True   8.1