Question

我是熊猫新手。

我的DataFrame看起来像这样：

    a1  b1   c1  d1  e1 
A   10  10   1   2   0   
B   20  20   2   1   1
C   30  30   3   1   0
D   40  40   4   1   1
E   40  40   4   1   2
F   40  40   4   1   1

我只想对e1相同的值进行数学运算。

例如：（a1A + a1C）/（c1A + c1C），其中C相同。所以我最终会得到一个像这样的数据框：

    a1  b1   c1  d1  e1     result
A   10  10   1   2   0      (a1A + a1C) / ( c1A + c1C )
B   20  20   2   1   1      (a1B + a1D+ a1F) / ( c1B + c1D+ c1F )
C   30  30   3   1   0      Do not calculate it because its already calculated
D   40  40   4   1   1      Do not calculate it because its already calculated
E   40  40   4   1   2      (a1E / c1E)
F   40  40   4   1   1      Do not calculate it because its already calculatedcalculated

我不知道如何将条件应用于计算，如果已经计算出该条件，我将如何省略计算。

谢谢您的建议。

Answer 1

首先按组总计，然后按Series.drop_duplicates删除重复项，最后按差异使用Series.map：

s = df.groupby('e1')['a1','c1'].sum() 

df['new'] = df['e1'].drop_duplicates().map(s.a1 / s.c1)
print (df)
   a1  b1  c1  d1  e1   new
A  10  10   1   2   0  10.0
B  20  20   2   1   1  10.0
C  30  30   3   1   0   NaN
D  40  40   4   1   1   NaN
E  40  40   4   1   2  10.0
F  40  40   4   1   1   NaN

我还认为在熊猫中显然不需要按唯一值进行映射，显然是使用GroupBy.transform并添加了由映射数据填充的新列：

df2 = df.groupby('e1')['a1','c1'].transform('sum')
print (df2)
    a1  c1
A   40   4
B  100  10
C   40   4
D  100  10
E   40   4
F  100  10

df['new'] = df2.a1 / df2.c1
print (df)
   a1  b1  c1  d1  e1   new
A  10  10   1   2   0  10.0
B  20  20   2   1   1  10.0
C  30  30   3   1   0  10.0
D  40  40   4   1   1  10.0
E  40  40   4   1   2  10.0
F  40  40   4   1   1  10.0

如果满足条件，则在熊猫数据框中进行数学运算

1 个答案: