我有一个DataFrame,我想根据查找表填充一个新列。我不能使用map
,因为查找表中的值需要很多索引。
import pandas as pd
import numpy as np
d = pd.DataFrame({'I': np.random.randint(3, size=5),
'B0': np.random.choice([True, False], 5),
'B1': np.random.choice([True, False], 5)})
这是我的数据(实际上我的数据要大得多):
B0 B1 I
0 True False 0
1 False False 0
2 False False 1
3 True False 1
4 False True 2
然后我的查找表:
l = pd.DataFrame({(True, True): [1.1, 2.2, 3.3],
(True, False): [1.3, 2.1, 3.1],
(False, True): [1.2, 2.1, 3.1],
(False, False): [1.1, 2.0, 5.1]}
)
l.index.name = 'I'
l.columns.names = 'B0', 'B1'
l = l.stack(['B0', 'B1'])
是
I B0 B1
0 False False 1.1
True 1.2
True False 1.3
True 1.1
1 False False 2.0
True 2.1
True False 2.1
True 2.2
2 False False 5.1
True 3.1
True False 3.1
True 3.3
所以我想从我的数据中添加一个列w
来查询值(I, B0, B1)
的循环表。我正在使用申请:
d['w'] = d.apply(lambda x: l[x['I'], x['B0'], x['B1']], axis=1)
它有效:
B0 B1 I w
0 True False 0 1.3
1 False False 0 1.1
2 False False 1 2.0
3 True False 1 2.1
4 False True 2 3.1
问题是它非常慢。如何加快这个?
答案 0 :(得分:4)
这应该更快
find_these = list(zip(d.I, d.B0, d.B1))
d.assign(w=l.loc[find_these].values)
B0 B1 I w
0 True False 0 1.3
1 False False 0 1.1
2 False False 1 2.0
3 True False 1 2.1
4 False True 2 3.1
使用join
d.join(l.rename('w'), on=['I', 'B0', 'B1'])
B0 B1 I w
0 True False 0 1.3
1 False False 0 1.1
2 False False 1 2.0
3 True False 1 2.1
4 False True 2 3.1
<强>时序强>
小数据
%%timeit
find_these = list(zip(d.I, d.B0, d.B1))
d.assign(w=l.loc[find_these].values)
100 loops, best of 3: 1.98 ms per loop
%timeit d.assign(w=d.apply(lambda x: l[x['I'], x['B0'], x['B1']], axis=1))
100 loops, best of 3: 11.8 ms per loop
%timeit d.join(l.rename('w'), on=['I', 'B0', 'B1'])
100 loops, best of 3: 1.99 ms per loop
%timeit d.merge(l.reset_index())
100 loops, best of 3: 2.89 ms per loop
答案 1 :(得分:3)
我们可以将d
与公寓合并(在应用reset_index()
后)l
:
In [5]: d.merge(l.reset_index())
Out[5]:
B0 B1 I 0
0 True False 0 1.3
1 True False 0 1.3
2 False True 0 1.2
3 False False 0 1.1
4 False True 2 3.1