Question

我的输入df如下：

ID     item1       item2        item3
1      a,b         b,c          b
2      a,c,f       b,c          b,c,f
3      g,h,i       i            h,i
4      j,k         j,k          l

item1，item2和item3的df数据类型是字符串类型。

我想添加第4列，所需的转换如下：伪代码：

Final_item = item3 - set[col(item1) + col(item2)] 基本上，在最后一列中，添加item1和item2，然后应用set删除重复项，然后使用item3列减去。

所需的输出如下：

ID     item1       item2        item3       Final_item
1      a,b         b,c          b           a,c
2      a,c,f       b,c          b,c,f       a 
3      g,h,i       i            h,i         g
4      j,k         j,k          l           j,k

Answer 1

首先split列，也通过,加入列，然后在压缩系列的列表理解上有所不同：

i3 = df['item3'].str.split(',')
i12 = (df['item1'] + ',' + df['item2']).str.split(',')
df['Final_item'] = [','.join(set(b) - set(a)) for a, b in zip(i3, i12)]
print (df)
   ID  item1 item2  item3 Final_item
0   1    a,b   b,c      b        c,a
1   2  a,c,f   b,c  b,c,f          a
2   3  g,h,i     i    h,i          g
3   4    j,k   j,k      l        j,k

熊猫数据框列转换

1 个答案: