Pandas Column差异,包含列表

时间:2016-10-04 19:19:01

标签: python list pandas dataframe

我有一个数据框,其中列值是列表,想要找到两列之间的差异,或者换句话说,我想找到列A中列B中不存在的所有元素。

data={'NAME':['JOHN','MARY','CHARLIE'],
  'A':[[1,2,3],[2,3,4],[3,4,5]],
  'B':[[2,3,4],[3,4,5],[4,5,6]]}
df=pd.DataFrame(data)
df=df[['NAME','A','B']]

#I'm able to concatenate
df['C']=df['A']+df['B']

    NAME    A   B   C
  0 JOHN    [1, 2, 3]   [2, 3, 4]   [1, 2, 3, 2, 3, 4]
  1 MARY    [2, 3, 4]   [3, 4, 5]   [2, 3, 4, 3, 4, 5]
  2 CHARLIE [3, 4, 5]   [4, 5, 6]   [3, 4, 5, 4, 5, 6]

找到差异的任何方法?

df['C']=df['A']-df['B']

我知道我们可以将df.apply用于函数,但逐行处理将会运行缓慢,因为我有大约400K行。我正在寻找像

这样的直接方法
df['C']=df['A']+df['B']

1 个答案:

答案 0 :(得分:2)

对于设定差异,

df['A'].map(set) - df['B'].map(set)