Question

我有一个数据框，列出了不同的团队（绿色，蓝色，黄色，橙色，[有数百个团队]等），并且还按月列出了他们的收入。我希望能够根据收入创建前10个团队的列表，然后将其提供给groupby语句，这样我只会在处理各种数据帧时查看这些团队。这些是我创建的声明，我遇到了麻烦：

Rev = df['Revenue'].head(10) and I have also used Rev = df.nlargest(10,['Revenue'])

grpby = df.groupby([df['team'].isin(rev), 'team'], as_index=False)['Revenue'].sum().sort_values('Revenue', ascending=False).reset_index()

*编辑：导致此请求的其他代码： *编辑：df = pd.read_excel（'c：/Test.xlsx'，sheet_name =“Sheet1”，index_col ='Date'，parse_dates = True）

*编辑：df = pd.DataFrame（df）

我可以使groupby语句有效，但我不能将'Rev'列表提供给限制/过滤要查看的组的groupby语句。

此外，在使用groupby语句创建数据框时，如何在未分组的其他列中添加回来？例如，在我的上述声明中，我尝试使用“团队”和“收入”，但如果我还想添加其他列，例如（'location'或'team lead'），在更多列中添加的语法是什么？

*编辑通过excel文件输入样本：团队收入绿色10 蓝色15 红20 橙色5 在上面的示例中，我想使用一个语句，它将前三个并保存为列表，然后将其提供给groupby语句。现在看来我还没有填写实际的数据帧？ *来自控制台：空DataFrame 专栏：[团队，收入] 指数：[]

Answer 1

需要过滤器作为boolean indexing的第一步：

<强>示例：

df = pd.DataFrame({'Teams': ['Green', 'Blue', 'Red', 'Orange', 'Green', 'Blue', 'Grey', 'Purple'], 
                   'Revenue': [18, 15, 20, 5, 10, 15, 2, 5], 
                   'Location': ['A', 'B', 'V', 'G', 'A', 'D', 'B', 'C']})

print (df)
    Teams  Revenue Location
0   Green       18        A
1    Blue       15        B
2     Red       20        V
3  Orange        5        G
4   Green       10        A
5    Blue       15        D
6    Grey        2        B
7  Purple        5        C

首先获取最高值并选择列Teams：

Rev = df.nlargest(3,'Revenue')['Teams']
print (Rev)
2      Red
0    Green
1     Blue
Name: Teams, dtype: object

然后首先需要boolean indexing过滤：

print (df[df['Teams'].isin(Rev)])
   Teams  Revenue Location
0  Green       18        A
1   Blue       15        B
2    Red       20        V
4  Green       10        A
5   Blue       15        D

df1 = (df[df['Teams'].isin(Rev)]
        .groupby('Teams',as_index=False)['Revenue']
        .sum()
        .sort_values('Revenue', ascending=False))
print (df1)
   Teams  Revenue
0   Blue       30
1  Green       28
2    Red       20

如果需要输出多个列，则需要为每个列设置聚合函数，如：

df2 = (df[df['Teams'].isin(Rev)]
        .groupby('Teams',as_index=False)
        .agg({'Revenue':'sum', 'Location': ', '.join, 'Another col':'mean'}))
print (df2)
   Teams  Revenue Location
0   Blue       30     B, D
1  Green       28     A, A
2    Red       20        V

Python Pandas Groupby isin

1 个答案: