我有一个Pandas数据框,我想根据其他列的值添加一个新列。下面是一个说明我的用例的最小例子。
df = pd.DataFrame([[4,5,19],[1,2,0],[2,5,9],[8,2,5]], columns=['a','b','c'])
df
a b c
---------------
0 4 5 19
1 1 2 0
2 2 5 9
3 8 2 5
x = df.sample(n=2)
x
a b c
---------------
3 8 2 5
1 1 2 0
def get_new(row):
a, b, c = row
return random.choice(df[(df['a'] != a) & (df['b'] == b) & (df['c'] != c)]['c'].values)
y = x.apply(lambda row: get_new(row), axis=1)
x['new'] = y
x
a b c new
--------------------
3 8 2 5 0
1 1 2 0 5
注意:原始数据帧有大约400万行和~6列。样本中的行数可能在50到500之间变化。我在具有8 GB RAM的64位计算机上运行。
以上作品,除非它很慢(对我来说大约需要15秒)。我也尝试使用x.itertuples()
代替apply
,并且在这种情况下没有太大改进。
似乎apply(轴= 1)很慢,因为它没有使用矢量化操作。有什么方法可以更快地实现这一目标吗?
与使用条件布尔变量相比,过滤(在get_new
函数中)是否可以被修改或提高效率?正如我目前所拥有的那样?
我可以在某种程度上使用numpy来获得一些加速吗?
修改:df.sample()
也很慢,我无法使用.iloc
或.loc
,因为我正在进一步修改示例,并且不希望这会影响原始数据帧。
答案 0 :(得分:1)
通过使用.loc
而不是链式索引,我看到了合理的性能提升:
import random, pandas as pd, numpy as np
df = pd.DataFrame([[4,5,19],[1,2,0],[2,5,9],[8,2,5]], columns=['a','b','c'])
df = pd.concat([df]*1000000)
x = df.sample(n=2)
def get_new(row):
a, b, c = row
return random.choice(df[(df['a'] != a) & (df['b'] == b) & (df['c'] != c)]['c'].values)
def get_new2(row):
a, b, c = row
return random.choice(df.loc[(df['a'] != a) & (df['b'] == b) & (df['c'] != c), 'c'].values)
%timeit x.apply(lambda row: get_new(row), axis=1) # 159ms
%timeit x.apply(lambda row: get_new2(row), axis=1) # 119ms