通过分组数据来总结大熊猫中的数据

时间:2017-07-23 17:04:17

标签: python pandas

这是数据框的子集:

react-native-cli

如您所见,药物ID重复,但A,B和C的值不同。首先,我需要通过drug_id对数据进行分组,然后对于每个组,如果该组的任何行中的A(例如lexapro.13)具有值" 1",则该组中的A具有值" 1',否则将得到0.如果该组的任何行中的B具有值" 1",那么该组中的B将接收" 1"否则将得到0,对于" C"同样如此。输出应该是这样的:

         drug_id         A   B  C       type  
        lexapro.13      1               SSRI        
        lexapro.13      1       1       SSRI    
        lexapro.13          1           SSRI    
        lexapro.13          1           SSRI
        effexor.223             1       SNRI
        effexor.223         1           SNRI    
        cymbalta.18             1       SNRI    
        cymbalta.18     1               SNRI

我认为首先我需要使用set_index通过drug_id列对数据进行分组,然后在该组中的A列中搜索值1,该组中的B列的值为1,而C中的值为1。但我这样做不知道怎么做。有什么建议吗?

1 个答案:

答案 0 :(得分:3)

您可以使用groupby并汇总max,然后将NaN替换为fillna,将int转换为astype并持续如果需要来自index的列添加reset_index

df = df.groupby('drug_id', sort=False).max().fillna(0).astype(int).reset_index()
print (df)
       drug_id  A  B  C
0   lexapro.13  1  1  1
1  effexor.223  0  1  1
2  cymbalta.18  1  0  1

使用any的另一个解决方案检查每个组和每列中至少有一个值不是zeroNaN

df = df.groupby('drug_id', sort=False).any().fillna(0).astype(int).reset_index()
print (df)
       drug_id  A  B  C
0   lexapro.13  1  1  1
1  effexor.223  0  1  1
2  cymbalta.18  1  0  1

如果需要仅检查1的所有列中的drug_id值,则可以使用difference获取所有列名称,然后通过eq1进行比较:

cols = df.columns.difference(['drug_id'])
df[cols] = df[cols].eq(1).astype(int)

df = df.groupby('drug_id', sort=False).max().reset_index()
#or
#df = df.groupby('drug_id', sort=False).any().reset_index()

编辑:

如果有另一个text列,则每列需要agg聚合,否则会省略列。

d = {'A': [3.0, 1.0, np.nan, np.nan, np.nan, np.nan, np.nan, 1.0], 
    'type': ['SSRI1', 'SSRI2', 'SSRI3', 'SSRI4', 'SNRI5', 'SNRI6', 'SNRI7', 'SNRI8'], 
    'drug_id': ['lexapro.13', 'lexapro.13', 'lexapro.13', 
                 'lexapro.13', 'effexor.223', 'effexor.223', 'cymbalta.18', 'cymbalta.18'], 
     'B': [np.nan, np.nan, 1.0, 1.0, np.nan, 5.0, 4.0, 1.0], 
     'C': [np.nan, 1.0, np.nan, np.nan, 1.0, np.nan, 2.0, np.nan]}
df = pd.DataFrame(d, columns=['drug_id', 'A', 'B', 'C', 'type'])
print (df)
       drug_id    A    B    C   type
0   lexapro.13  3.0  NaN  NaN  SSRI1
1   lexapro.13  1.0  NaN  1.0  SSRI2
2   lexapro.13  NaN  1.0  NaN  SSRI3
3   lexapro.13  NaN  1.0  NaN  SSRI4
4  effexor.223  NaN  NaN  1.0  SNRI5
5  effexor.223  NaN  5.0  NaN  SNRI6
6  cymbalta.18  NaN  4.0  2.0  SNRI7
7  cymbalta.18  1.0  1.0  NaN  SNRI8

检查值1

cols = df.columns.difference(['drug_id', 'type'])
df[cols] = df[cols].eq(1).astype(int)
print (df)
       drug_id  A  B  C   type
0   lexapro.13  0  0  0  SSRI1
1   lexapro.13  1  0  1  SSRI2
2   lexapro.13  0  1  0  SSRI3
3   lexapro.13  0  1  0  SSRI4
4  effexor.223  0  0  1  SNRI5
5  effexor.223  0  0  0  SNRI6
6  cymbalta.18  0  0  0  SNRI7
7  cymbalta.18  1  1  0  SNRI8

动态准备字典 - 列type需要另一个函数。 使用first表示每组的第一个值,或join表示string的所有值包含所有值:

d = {x:'max' for x in cols}
d['type'] = 'first'
print (d)
{'A': 'max', 'type': 'first', 'B': 'max', 'C': 'max'}

df1 = df.groupby('drug_id', sort=False).agg(d).reset_index().reindex_axis(df.columns, axis=1)
print (df1)
       drug_id  A  B  C   type
0   lexapro.13  1  1  1  SSRI1
1  effexor.223  0  0  1  SNRI5
2  cymbalta.18  1  1  0  SNRI7

d = {x:'max' for x in cols}
d['type'] = ', '.join
print (d)
{'A': 'max', 'type': <built-in method join of str object at 0x000000000B447340>, 
 'B': 'max', 'C': 'max'}

df2 = df.groupby('drug_id', sort=False).agg(d).reset_index().reindex_axis(df.columns, axis=1)
print (df2)
       drug_id  A  B  C                        type
0   lexapro.13  1  1  1  SSRI1, SSRI2, SSRI3, SSRI4
1  effexor.223  0  0  1                SNRI5, SNRI6
2  cymbalta.18  1  1  0                SNRI7, SNRI8