熊猫:在每组中按平均值填充缺失值比转换更快

时间:2016-11-18 16:47:17

标签: python pandas nan python-3.5 mean

我需要通过每组中的平均值填充pandas DataFrame中的缺失值。根据{{​​3}} transform可以实现这一目标。

然而,transform对我来说太慢了。

例如,使用包含100个不同组和70%NaN值的大型DataFrame进行以下设置:

import pandas as pd
import numpy as np

size = 10000000  # DataFrame length
ngroups = 100  # Number of Groups

randgroups = np.random.randint(ngroups, size=size)  # Creation of groups
randvals = np.random.rand(size) * randgroups * 2    # Random values with mean like group number
nan_indices = np.random.permutation(range(size))    # NaN indices
nanfrac = 0.7                                       # Fraction of NaN values
nan_indices = nan_indices[:int(nanfrac*size)]       # Take fraction of NaN indices
randvals[nan_indices] = np.NaN                      # Set NaN values

df = pd.DataFrame({'value': randvals, 'group': randgroups})  # Create data frame

通过

使用transform
df.groupby("group").transform(lambda x: x.fillna(x.mean())) # Takes too long

我的电脑上已经超过3秒钟了。我需要更快一些数量级的东西(购买更大的机器不是一种选择:-D)。

那么我怎样才能更快地填补缺失值?

3 个答案:

答案 0 :(得分:3)

你做错了。它很慢,因为你正在使用lambda

df[['value']].fillna(df.groupby('group').transform('mean'))

答案 1 :(得分:3)

使用排序索引+ fillna()

你是对的 - 你的代码运行时需要3.18秒。 @piRSquared提供的代码需要2.78秒才能运行。

  1. 示例代码 %%timeit df2 = df1.groupby("group").transform(lambda x: x.fillna(x.mean())) Output: 1 loop, best of 3: 3.18 s per loop`

  2. piRSquared的改进 %%timeit df[['value']].fillna(df.groupby('group').transform('mean')) Output: 1 loop, best of 3: 2.78 s per loop

  3. 稍微提高效率的方式(使用排序索引和fillna

  4. 您可以将group列设置为数据框的索引,然后对其进行排序。

    df = df.set_index('group').sort_index()

    现在您已经有了一个排序索引,使用df.loc[x,:]按组号访问数据帧的子集非常便宜

    由于您需要按每个组的平均值进行计算,因此您需要所有唯一的组ID。对于此示例,您可以使用range(因为组从0到99),但更一般地说 - 您可以使用:

    groups = np.unique(set(df.index))

    在此之后,您可以迭代这些组并使用fillna()进行估算: %%timeit for x in groups: df.loc[x,'value'] = df.loc[x,'value'].fillna(np.mean(df.loc[x,'value'])) Output: 1 loop, best of 3: 231 ms per loop

    注意:set_indexsort_indexnp.unique操作是一次性费用。为了公平对待每个人,我的机器上的总时间(包括这些操作)是2.26秒,但估算时间仅为231毫秒。

答案 2 :(得分:3)

这是一种使用np.bincount的NumPy方法,对于这种基于bin的求和/平均操作非常有效 -

ids = df.group.values                    # Extract 2 columns as two arrays
vals = df.value.values

m = np.isnan(vals)                             # Mask of NaNs
grp_sums = np.bincount(ids,np.where(m,0,vals)) # Group sums with NaNs as 0s
avg_vals = grp_sums*(1.0/np.bincount(ids,~m))        # Group averages
vals[m] = avg_vals[ids[m]]              # Set avg values into NaN positions

请注意,这会更新value列。

运行时测试

数据化:

size = 1000000  # DataFrame length
ngroups = 10  # Number of Groups

时间:

In [17]: %timeit df.groupby("group").transform(lambda x: x.fillna(x.mean()))
1 loops, best of 3: 276 ms per loop

In [18]: %timeit bincount_based(df)
100 loops, best of 3: 13.6 ms per loop

In [19]: 276.0/13.6  # Speedup
Out[19]: 20.294117647058822

20x+ 加速!