我有两个数据框。
df = pd.DataFrame([[1,2,3,[4,5]],[6,7,8,[9,10]]], columns=['a','b','c','d'])
df2 = pd.DataFrame([[4,'abc'],[5,'ef'], [10,'g'], [12,'hijk']], columns=['a_2','b_2'])
In [151]: df
Out[151]:
a b c d
0 1 2 3 [4, 5]
1 6 7 8 [9, 10]
In [152]: df2
Out[152]:
a_2 b_2
0 4 abc
1 5 ef
2 10 g
3 12 hijk
我想基于df的列“ d”合并两者,并获得以下输出-
df3 = pd.DataFrame([[1,2,3,[4,5],['abc','ef']],[6,7,8,[9,10],['g']]], columns=['a','b','c','d','b_2'])
In [153]: df3
Out[153]:
a b c d b_2
0 1 2 3 [4, 5] [abc, ef]
1 6 7 8 [9, 10] [g]
我确实尝试过“合并”,但没有得到所需的结果。
答案 0 :(得分:2)
这并非完全是合并问题,但我可以使用调用list comprehension的Series.get
来做到这一点:
s = df2.set_index('a_2')['b_2'] # mapping to use
[[s.get(y) for y in x if y in s] for x in df['d']]
# [['abc', 'ef'], ['g']]
# df['b_2'] = [[s.get(y) for y in x if y in s] for x in df['d']]
df3 = df.assign(b_2=[[s.get(y) for y in x if y in s] for x in df['d']])
df3
a b c d b_2
0 1 2 3 [4, 5] [abc, ef]
1 6 7 8 [9, 10] [g]
Evidence suggests,鉴于问题的不可向量化性质,列表理解应该相当快。