Question

我有一个相对较大的DataFrame对象（大约一百万行，数百列），我想按组剪切每列中的异常值。通过“按组分组每个列的异常值”我的意思是 - 计算组中每列的5％和95％分位数，并剪切该分位数范围之外的值。

这是我目前正在使用的设置：

def winsorize_series(s):
    q = s.quantile([0.05, 0.95])
    if isinstance(q, pd.Series) and len(q) == 2:
        s[s < q.iloc[0]] = q.iloc[0]
        s[s > q.iloc[1]] = q.iloc[1]
    return s

def winsorize_df(df):
    return df.apply(winsorize_series, axis=0)

然后，我的DataFrame名为features并被DATE编入索引，我可以

grouped = features.groupby(level='DATE')
result = grouped.apply(winsorize_df)

这是有效的，除非它非常慢，可能是由于嵌套的apply调用：每个组一个，然后每个组中每个列一个。我试图通过一次计算所有列的分位数来摆脱第二个apply，但是试图将每个列的阈值设置为不同的值。有没有更快的方法来完成这个过程？

Answer 1

您可以考虑使用winsorize function in scipy.stats.mstats。但请注意，它返回的值略微不同于winsorize_series：

In [126]: winsorize_series(pd.Series(range(20), dtype='float'))[0]
Out[126]: 0.95000000000000007

In [127]: mstats.winsorize(pd.Series(range(20), dtype='float'), limits=[0.05, 0.05])[0]
Out[127]: 1.0

使用mstats.winsorize代替winsorize_series可能（取决于N，M，P）快〜1.5倍：

import numpy as np
import pandas as pd
from scipy.stats import mstats

def using_mstats_df(df):
    return df.apply(using_mstats, axis=0)

def using_mstats(s):
    return mstats.winsorize(s, limits=[0.05, 0.05])

N, M, P = 10**5, 10, 10**2
dates = pd.date_range('2001-01-01', periods=N//P, freq='D').repeat(P)
df = pd.DataFrame(np.random.random((N, M))
                  , index=dates)
df.index.names = ['DATE']
grouped = df.groupby(level='DATE')

In [122]: %timeit result = grouped.apply(winsorize_df)
1 loops, best of 3: 17.8 s per loop

In [123]: %timeit mstats_result = grouped.apply(using_mstats_df)
1 loops, best of 3: 11.2 s per loop

Answer 2

接近这个的好方法是使用矢量化。为此，我喜欢使用np.where。

import pandas as pd
import numpy as np
from scipy.stats import mstats
import timeit

data = pd.Series(range(20), dtype='float')

def WinsorizeCustom(data):
    quantiles = data.quantile([0.05, 0.95])
    q_05 = quantiles.loc[0.05]
    q_95 = quantiles.loc[0.95]

    out = np.where(data.values <= q_05,q_05, 
                                      np.where(data >= q_95, q_95, data)
                  )
    return out

为了比较，我将函数从scipy包装在函数中：

def WinsorizeStats(data):
    out = mstats.winsorize(data, limits=[0.05, 0.05])
    return out

但正如您所看到的，即使我的功能非常快，它仍然远离Scipy实现：

%timeit WinsorizeCustom(data)
#1000 loops, best of 3: 842 µs per loop

%timeit WinsorizeStats(data)
#1000 loops, best of 3: 212 µs per loop

如果您有兴趣阅读有关加快大熊猫代码的更多信息，我建议您Optimization Pandas for speed和From Python to Numpy。

Answer 3

我在pandas中使用transform方法找到了一种相当简单的方法来实现它。

from scipy.stats import mstats

def winsorize_series(group):
    return mstats.winsorize(group, limits=[lower_lim,upper_lim])

grouped = features.groupby(level='DATE')
result = grouped.transform(winsorize_series)

Answer 4

这是不使用scipy.stats.mstats的解决方案：

def clip_series(s, lower, upper):
   clipped = s.clip(lower=s.quantile(lower), upper=s.quantile(upper), axis=1)
   return clipped

# Manage list of features to be winsorized
feature_list = list(features.columns)

for f in feature_list:
   features[f] = clip_series(features[f], 0.05, 0.95)

Answer 5

有一个二维数组，行作为观察值，列作为特征。并且，要求省略具有任何异常特征值的完整行。

data = np.array([[1, 8, 13, 113, 401],
                 [2, 8, 15, 119, 402],
                 [1, 9, 14, 117, 399],
                 [100, 7, 12, 110, 409],
                 [4, 70, 11, 111, 404]
                 ])

是否有任何 API 或函数可以这样做？

在大型pandas DataFrame中按组移除异常值的更快方法

5 个答案: