如何在大熊猫的复杂条件下进行装箱

时间:2017-02-02 03:07:10

标签: python pandas dataframe

我有如下的数据框

age  type days 
1    a    1
2    b    3
2    b    4
3    a    5   
4    b    2
6    c    1
7    f    0
7    d    4
10   e    2
14   a    1

首先我想按年龄分类

年龄

[0~4]

age  type days  
1    a    1
2    b    3
2    b    4
3    a    5   
4    b    2

然后通过与type

分组来总结和计算天数
   sum count
a   6   2
b   9   3
c   0   0
d   0   0
e   0   0
f   0   0

然后我想将此方法应用于另一个bin。

[5〜9] [11〜14]

我想要的结果在

之下
   [0~4]         [5~9]      [10~14]
   sum count  sum count  sum count
a   6   2      0   0      1   1
b   9   3      0   0      0   0
c   0   0      1   1      0   0
d   0   0      4   1      0   0
e   0   0      0   0      2   1
f   0   0      0   1      0   0

如何做到这一点? 这对我来说非常复杂..

2 个答案:

答案 0 :(得分:2)

我们将使用一些stack和groupby操作来获取所需的输出。

string_ = io.StringIO('''age  type days 
                         1    a    1
                         2    b    3
                         2    b    4
                         3    a    5   
                         4    b    2
                         6    c    1
                         7    f    0
                         7    d    4
                         10   e    2
                         14   a    1''')
df = pd.read_csv(string_, sep='\s+')

df['age_bins'] = pd.cut(df['age'], [0,4,9,14])

df_stacked = df.groupby(['age_bins', 'type']).agg({'days': np.sum,
                         'type': 'count'}).transpose().stack().fillna(0)
df_stacked.rename(index={'days': 'sum', 'type': 'count'}, inplace=True)

>>> df_stacked
age_bins    (0, 4]  (4, 9]  (9, 14]
      type                         
sum   a        6.0     0.0      1.0
      b        9.0     0.0      0.0
      c        0.0     1.0      0.0
      d        0.0     4.0      0.0
      e        0.0     0.0      2.0
      f        0.0     0.0      0.0
count a        2.0     0.0      1.0
      b        3.0     0.0      0.0
      c        0.0     1.0      0.0
      d        0.0     1.0      0.0
      e        0.0     0.0      1.0
      f        0.0     1.0      0.0

这不会产生您列出的确切输出,但它类似,我认为索引和检索数据会更容易。或者,您可以使用以下内容来获得所需的输出。

>>> df_stacked.unstack(level=0)
age_bins (0, 4]      (4, 9]      (9, 14]     
          count  sum  count  sum   count  sum
type                                         
a           2.0  6.0    0.0  0.0     1.0  1.0
b           3.0  9.0    0.0  0.0     0.0  0.0
c           0.0  0.0    1.0  1.0     0.0  0.0
d           0.0  0.0    1.0  4.0     0.0  0.0
e           0.0  0.0    0.0  0.0     1.0  2.0
f           0.0  0.0    1.0  0.0     0.0  0.0

答案 1 :(得分:1)

考虑pivot_table pd.cut df['bin'] = pd.cut(df.age, [0,4,9,14]) pvtdf = df.pivot_table(index='type', columns=['bin'], values='days', aggfunc=('count', 'sum')).fillna(0) # count sum # bin (0, 4] (4, 9] (9, 14] (0, 4] (4, 9] (9, 14] # type # a 2.0 0.0 1.0 6.0 0.0 1.0 # b 3.0 0.0 0.0 9.0 0.0 0.0 # c 0.0 1.0 0.0 0.0 1.0 0.0 # d 0.0 1.0 0.0 0.0 4.0 0.0 # e 0.0 0.0 1.0 0.0 0.0 2.0 # f 0.0 1.0 0.0 0.0 0.0 0.0 如果你不太关心列排序,因为 count sum 没有在一起配对完事。通过操作,您可以更改此类顺序。

CGContextSaveGState(context);