我是熊猫新手。
我的DataFrame看起来像这样:
a1 b1 c1 d1 e1
A 10 10 1 2 0
B 20 20 2 1 1
C 30 30 3 1 0
D 40 40 4 1 1
E 40 40 4 1 2
F 40 40 4 1 1
我只想对e1
相同的值进行数学运算。
例如:
(a1A
+ a1C
)/(c1A
+ c1C
),其中C
相同。所以我最终会得到一个像这样的数据框:
a1 b1 c1 d1 e1 result
A 10 10 1 2 0 (a1A + a1C) / ( c1A + c1C )
B 20 20 2 1 1 (a1B + a1D+ a1F) / ( c1B + c1D+ c1F )
C 30 30 3 1 0 Do not calculate it because its already calculated
D 40 40 4 1 1 Do not calculate it because its already calculated
E 40 40 4 1 2 (a1E / c1E)
F 40 40 4 1 1 Do not calculate it because its already calculatedcalculated
我不知道如何将条件应用于计算,如果已经计算出该条件,我将如何省略计算。
谢谢您的建议。
答案 0 :(得分:3)
首先按组总计,然后按Series.drop_duplicates
删除重复项,最后按差异使用Series.map
:
s = df.groupby('e1')['a1','c1'].sum()
df['new'] = df['e1'].drop_duplicates().map(s.a1 / s.c1)
print (df)
a1 b1 c1 d1 e1 new
A 10 10 1 2 0 10.0
B 20 20 2 1 1 10.0
C 30 30 3 1 0 NaN
D 40 40 4 1 1 NaN
E 40 40 4 1 2 10.0
F 40 40 4 1 1 NaN
我还认为在熊猫中显然不需要按唯一值进行映射,显然是使用GroupBy.transform
并添加了由映射数据填充的新列:
df2 = df.groupby('e1')['a1','c1'].transform('sum')
print (df2)
a1 c1
A 40 4
B 100 10
C 40 4
D 100 10
E 40 4
F 100 10
df['new'] = df2.a1 / df2.c1
print (df)
a1 b1 c1 d1 e1 new
A 10 10 1 2 0 10.0
B 20 20 2 1 1 10.0
C 30 30 3 1 0 10.0
D 40 40 4 1 1 10.0
E 40 40 4 1 2 10.0
F 40 40 4 1 1 10.0