如何添加新列并根据其他列的系列填充特定值?

时间:2020-04-21 19:58:08

标签: python pandas

我是Pandas的新手,但感谢Add column with constant value to pandas dataframe,我能够使用

一次添加不同的列
c = {'new1': 'w', 'new2': 'y', 'new3': 'z'}
df.assign(**c)

但是,当我想向数据帧中添加新列(目前为120万行* 23列)时,我试图找出要走的路。

让我们稍微简化一下df,并尝试使其更加清晰:

Order   Orderline   Product  
1       0           Laptop  
1       1           Bag  
1       2           Mouse  
2       0           Keyboard  
3       0           Laptop  
3       1           Mouse  

我想添加一个新列,具体取决于订单是否具有至少1个产品==袋,然后应为1(对于该特定订单的所有行),否则为0。

结果将变为:

Order   Orderline   Product   HasBag  
1       0           Laptop    1  
1       1           Bag       1  
1       2           Mouse     1  
2       0           Keyboard  0  
3       0           Laptop    0  
3       1           Mouse     0  

我能做的是找到所有唯一的订单号,然后过滤出子帧,检查Bag的Product列,如果找到,则将1添加到新列,否则添加0,然后用结果替换原始子帧

有一种更好的方法可以完成此任务,也可以提高性能。

我要执行此操作的主要原因是稍后将内容压缩。每个订单应变成1行,并带有某些产品值。我不再需要有关Bag的信息,但是如果原始订单过去使用的是Bag(1)或没有Bag(0),我想保留在数据框中。

最终,当数据被清除后,可以用作scikit-learn的基础(或者就是我希望的那样)。

1 个答案:

答案 0 :(得分:2)

如果我对您的理解正确,那么您想要GroupBy.transform.any

首先,我们通过检查Product中的哪些行是BagSeries.eq来创建布尔数组。然后,我们在此布尔数组上GroupBy,并检查其中any个值是否为True。我们使用transform来保持初始数组的形状,以便我们可以将值赋回去。

df['ind'] = df['Product'].eq('Bag').groupby(df['Order']).transform('any').astype(int)

   Order  Orderline   Product  ind
0      1          0    Laptop    1
1      1          1       Bag    1
2      1          2     Mouse    1
3      2          0  Keyboard    0
4      3          0    Laptop    0
5      3          1     Mouse    0