我有一个适用于Python 3.6x的Pandas 0.19.2数据框,如下所示。我想根据条件逻辑使用相同的drop_duplicates()
Id
。
import pandas as pd
import numpy as np
np.random.seed(1)
df = pd.DataFrame({'Id':[1,2,3,4,3,2,6,7,1,8],
'Name':['A', 'B', 'C', 'D', 'E', 'F', 'G', 'H', 'I', 'K'],
'Size':np.random.rand(10),
'Age':[19, 25, 22, 31, 43, 23, 44, 20, 51, 31]})
根据我在下面描述的逻辑,最有效的方法(如果可能的话是矢量化)是什么?
1)在删除重复项之前,对重复的Size
项中的Id
个项求和。
2)删除相同Id
记录的重复项,保留Age
较大的记录。
所需的输出将是:
Age Id Name Size
1 25 2 B 0.812662
3 31 4 D 0.302333
4 43 3 E 0.146870
6 44 6 G 0.186260
7 20 7 H 0.345561
8 51 1 I 0.813790
9 31 8 K 0.538817
答案 0 :(得分:1)
将GroupBy.transform
用于具有与原始DataFrame相同大小的聚合值,其中sort_values
和drop_duplicates
用于删除重复项:
df['Size'] = df.groupby('Id')['Size'].transform('sum')
df = df.sort_values('Age').drop_duplicates('Id', keep='last').sort_index()
print (df)
Id Name Size Age
1 2 B 0.812663 25
3 4 D 0.302333 31
4 3 E 0.146870 43
6 6 G 0.186260 44
7 7 H 0.345561 20
8 1 I 0.813789 51
9 8 K 0.538817 31