Question

我有一个数据框

    ID   KD     DT   
0    4    2     5.6  
1    4    5     8.7  
4    4    8     1.9  
5    4    9     1.7  
6    4    1     8.8    
3    4    3     7.2  
9    4    4     3.1

我还有一个标签数组，大小与唯一KD的总数相同

L = [ 0, 0, 0, 1, 1, 1, 1]仅表示KD == 1与标签0 KD == 2与标签0 ... KD == 9与标签1等相关联（{{ 1}}的存储顺序为L）。

现在我有两个列表，KD和l1 = [1,2,5,9]。我想设置与l2 = [3,4,8]中的DT值相对应的KD的值，以使其为l2中DT值的平均值，如果两者都具有相同的标签。

在示例中，l1与KD == 3中KD = 1 and 2的标签（标签= 0）相同。因此我们设置了l1。

我现在使用for循环进行此操作，方法是遍历DT = (8.8 + 5.6)/2 = 7.2并找到具有相同标签的l2项，然后取平均。有没有一种方法可以通过摆脱for循环来非常有效地做到这一点？

我的输出可以是以下形式的字典 l1

Answer 1

IIUC，首先set_index KD列，然后可以选择'DT'并用where用Nan替换不是isin(l1)的值。然后您在groupby.transform中的map KD列中的L及其组号中得到mean。最后，loc仅是isin(l2)的KD，并使用to_dict来获得期望的输出

df_ = df.set_index('KD')
print ( df_['DT'].where(df_.index.isin(l1))\
                .groupby(df_.index.map(pd.Series(L, df_.index.sort_values())))\
                .transform('mean')\
                .loc[df_.index.isin(l2)]\
                .to_dict()
      )
{8: 5.199999999999999, 3: 7.2, 4: 5.199999999999999}

根据标签对数据帧条目进行选择性平均

1 个答案: