Question

我正在研究一种算法，该算法需要按两列进行分组。 Pandas支持使用以下两列进行分组：

df.groupby([col1, col2])

但结果数据帧不是必需的数据帧

工作设置：
Python： v3.5
熊猫： v0.18.1

Pandas Dataframe - 输入数据：

     Type                  Segment
id                              
1   Domestic                 1
2     Salary                 3
3        NRI                 1
4     Salary                 4
5     Salary                 3
6        NRI                 4
7     Salary                 4
8     Salary                 3
9     Salary                 4
10       NRI                 4

必填数据框： 每个细分中的[国内，薪资，NRI]计数

                  Domestic    Salary    NRI
        Segment
              1          1       3       1
              3          0       0       0
              4          0       3       2

实验：

group = df.groupby(['Segment', 'Type'])
group.size()

Segment           Type        Count
1                 Domestic    1
                  NRI         1
3                 Salary      3
4                 Salary      3
                  NRI         2

我可以使用MS Excel数据透视表功能获得所需的数据框。有什么办法，我可以用pandas获得类似的结果吗？

Answer 1

在Groupby.size操作之后，创建了一个multi-index（2级索引）series对象，需要将其转换为数据框，这可以通过unstacking来完成第二级索引，并可选择填充NaNs获得0。

df.groupby(['Segment', 'Type']).size().unstack(level=1, fill_value=0)

如何使用Pandas分组两列？

1 个答案: