让我们说,我有以下数据框:
import pandas as pd
df = pd.DataFrame({'n': [1, 2, 3], 'm': [4, 4, 7]})
df.loc[df['m']==4,'n']=1
在一个相对小的数据集(〜50000个INT32样品)运行此的.loc功能是服用11毫秒。有什么办法可以加快速度吗?我希望能得到相同的操作下来10-100μs之间。
我已经编辑上面的例子是多一点简洁。
测试所提出的方法后,将最快的是:
df['n'].values[df['m'].values == 4] = 1
将其应用于约50,000个样本数据集后,该解决方案的运行速度比原始代码快244倍。
答案 0 :(得分:2)
您可以使用np.where
获得更有效的解决方案:
df = pd.DataFrame({'numbers': np.random.choice(range(5), 100_000),
'more_numbers': np.random.choice(range(5), 100_000)})
%timeit df.loc[df.more_numbers==4,'numbers']=1
7.09 ms ± 658 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)
%timeit np.where(df.more_numbers == 4, 1, df.numbers)
547 µs ± 20.1 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)
所以您可以改为:
df.numbers = np.where(df.more_numbers == 4, 1, df.numbers)
答案 1 :(得分:1)
所以只需使用values
%timeit df.values[df['more_numbers']==4,0]=1
10000 loops, best of 3: 127 µs per loop
%timeit df.loc[df['more_numbers']==4,'numbers']=1
1000 loops, best of 3: 692 µs per loop
答案 2 :(得分:1)
您可以看看np.where()
df.numbers=np.where(df['more_numbers']==4,1,df.numbers)
答案 3 :(得分:1)
有很多方法。您可能希望考虑修改基础的NumPy数组。但是,这不是有记载或官方推荐的方法。
# Python 3.6.5, Pandas 0.19.2, NumPy 1.11.4
np.random.seed(0)
df = pd.DataFrame({'n': np.random.randint(0, 10, 10**5),
'm': np.random.randint(0, 10, 10**5)})
%timeit df.loc[df['m'] == 4, 'n'] = 1 # 1.3 ms
%timeit df['n'].values[df['m'].values == 4] = 1 # 436 µs
%timeit df['n'] = np.where(df['m'].values == 4, 1, df['n']) # 751 µs
%timeit df.iloc[df['m'].values == 4, df.columns.get_loc('n')] = 1 # 880 µs
%timeit df.loc[df['m'].values == 4, 'n'] = 1 # 1.12 ms
%timeit df['n'] = df['n'].mask(df['m'].values == 4, 1) # 1.34 ms