Pandas:当列是列表时按值分组

时间:2016-11-12 21:42:03

标签: pandas

我有一个像这样的DataFrame:

df = pd.DataFrame({'type':[[1,3],[1,2,3],[2,3]], 'value':[4,5,6]})

type | value
-------------
1,3  | 4
1,2,3| 5
2,3  | 6

我想按“类型”列中的不同值进行分组,例如值的总和为:

type | sum
------------
1    | 9
2    | 11
3    | 15

感谢您的帮助!

1 个答案:

答案 0 :(得分:2)

您需要首先按Dataframe构造函数,stackreset_indextype列重新设置DataFrame。然后将列type投放到int并将groupby投放到汇总sum

df1 = pd.DataFrame(df['type'].values.tolist(), index = df['value']) \
        .stack() \
        .reset_index(name='type')
df1.type = df1.type.astype(int)
print (df1)
   value  level_1  type
0      4        0     1
1      4        1     3
2      5        0     1
3      5        1     2
4      5        2     3
5      6        0     2
6      6        1     3


print (df1.groupby('type', as_index=False)['value'].sum())
   type  value
0     1      9
1     2     11
2     3     15

join的另一个解决方案:

df1 = pd.DataFrame(df['type'].values.tolist()) \
        .stack() \
        .reset_index(level=1, drop=True) \
        .rename('type') \
        .astype(int)
print (df1)
0    1
0    3
1    1
1    2
1    3
2    2
2    3
Name: type, dtype: int32

df2 = df[['value']].join(df1)
print (df2)
   value  type
0      4     1
0      4     3
1      5     1
1      5     2
1      5     3
2      6     2
2      6     3

print (df2.groupby('type', as_index=False)['value'].sum())
   type  value
0     1      9
1     2     11
2     3     15

包含Series的版本,其中get_level_values选择第一级索引,to_series转换为Series并汇总sum。上次reset_index并将列index重命名为type

df1 = pd.DataFrame(df['type'].values.tolist(), index = df['value']).stack().astype(int)
print (df1)
value   
4      0    1
       1    3
5      0    1
       1    2
       2    3
6      0    2
       1    3
dtype: int32

print (df1.index.get_level_values(0)
          .to_series()
          .groupby(df1.values)
          .sum()
          .reset_index()
          .rename(columns={'index':'type'}))
   type  value
0     1      9
1     2     11
2     3     15

通过评论进行编辑 - 这是一个经过修改的第二个解决方案DataFrame.pop

df = pd.DataFrame({'type':[[1,3],[1,2,3],[2,3]], 
                   'value1':[4,5,6], 
                   'value2':[1,2,3], 
                   'value3':[4,6,1]})
print (df)
        type  value1  value2  value3
0     [1, 3]       4       1       4
1  [1, 2, 3]       5       2       6
2     [2, 3]       6       3       1

df1 = pd.DataFrame(df.pop('type').values.tolist()) \
        .stack() \
        .reset_index(level=1, drop=True) \
        .rename('type') \
        .astype(int)
print (df1)
0    1
0    3
1    1
1    2
1    3
2    2
2    3
Name: type, dtype: int32

print (df.join(df1).groupby('type', as_index=False).sum())
   type  value1  value2  value3
0     1       9       3      10
1     2      11       5       7
2     3      15       6      11