Question

假设我们有以下数据：

df = pd.DataFrame({
    'group_id': [100,100,100,101,101,101,101],
    'amount': [30,40,10,20,25,80,40]
})
df.index.name = 'id'
df.set_index(['group_id', df.index], inplace=True)

它看起来像这样：

             amount
group_id id        
100      0       30
         1       40
         2       10
101      3       20
         4       25
         5       80
         6       40

目标是计算新列，即所有小于当前列的金额之和。即我们想要这个结果。

             amount  sum_of_smaller_amounts
group_id id                                
100      0       30                      10  
         1       40                      40  # 30 + 10
         2       10                       0  # smallest amount
101      3       20                       0  # smallest
         4       25                      20  
         5       80                      85  # 20 + 25 + 40
         6       40                      45  # 20 + 25

理想情况下，这应该（非常）有效，因为实际数据框可能是数百万行。

Answer 1

更好的解决方案（我认为）：

df['sum_smaller_amount'] = (df_sort.groupby('group_id')['amount']
                                   .transform(lambda x: x.mask(x.duplicated(),0).cumsum()) - 
                                   df['amount'])

输出：

             amount  sum_smaller_amount
group_id id                            
100      0       30                10.0
         1       40                40.0
         2       10                 0.0
101      3       20                 0.0
         4       25                20.0
         5       80                85.0
         6       40                45.0

使用笛卡尔积和过滤器的另一种方法：

df.merge(df.reset_index(), on='group_id', suffixes=('_sum_smaller',''))\
  .query('amount_sum_smaller < amount')\
  .groupby(['group_id','id'])[['amount_sum_smaller']].sum()\
  .join(df, how='right').fillna(0)

输出：

             amount_sum_smaller  amount
group_id id                            
100      0                 10.0      30
         1                 40.0      40
         2                  0.0      10
101      3                  0.0      20
         4                 20.0      25
         5                 85.0      80
         6                 45.0      40

Answer 2

您想要sort_values和cumsum：

df['new_amount']= (df.sort_values('amount')
                    .groupby(level='group_id')
                    ['amount'].cumsum() - df['amount'])

输出：

             amount  new_amount
group_id id                    
100      0       30          10
         1       40          40
         2       10           0
101      3       20           0
         4       25          20
         5       80          85
         6       40          45

更新：修复重复值：

# the data
df = pd.DataFrame({
    'group_id': [100,100,100,100,101,101,101,101],
    'amount': [30,40,10,30,20,25,80,40]
})
df.index.name = 'id'
df.set_index(['group_id', df.index], inplace=True)

# sort values:
df_sorted = df.sort_values('amount')

# cumsum
s1 = df_sorted.groupby('group_id')['amount'].cumsum()

# value counts
s2 = df_sorted.groupby(['group_id', 'amount']).cumcount() + 1

# instead of just subtracting df['amount'], we subtract amount * counts
df['new_amount'] = s1 - df['amount'].mul(s2)

输出（请注意组100中的两个值30）

             amount  new_amount
group_id id                    
100      0       30          10
         1       40          70
         2       10           0
         3       30          10
101      4       20           0
         5       25          20
         6       80          85
         7       40          45

Answer 3

我在pandas上处于中等水平，不确定效率，但这是一个解决方案：

temp_df = df.sort_values(['group_id','amount'])
temp_df = temp_df.mask(temp_df['amount'] == temp_df['amount'].shift(), other=0).groupby(level='group_id').cumsum()

df['sum'] = temp_df.sort_index(level='id')['amount'] - df['amount']

结果：

             amount  sum
group_id id             
100      0       30   10
         1       40   40
         2       10    0
101      3       20    0
         4       25   20
         5       80   85
         6       40   45
         7       40   45

如果可以以某种方式帮助提高效率，则可以用以下内容代替最后一行：

df['sum'] = df.subtract(temp_df).multiply(-1)

# or

df['sum'] = (~df).add(temp_df + 1)

熊猫计算相对于当前行的聚合值

3 个答案: