熊猫的滚动差异

时间:2018-01-30 09:45:59

标签: python pandas

有没有人知道有效的函数/方法,例如pandas.rolling_mean,它会计算数组的滚动差异

这是我最接近的解决方案:

roll_diff = pd.Series(values).diff(periods=1)

但是,它只计算单步滚动差异。理想情况下,步长是可编辑的(即当前时间步长和最后步骤之间的差异)。

我也写过这个,但对于较大的数组,它很慢:

def roll_diff(values,step):
    diff = []
    for i in np.arange(step, len(values)-1):
        pers_window = np.arange(i-1,i-step-1,-1)
        diff.append(np.abs(values[i] - np.mean(values[pers_window])))
    diff = np.pad(diff, (0, step+1), 'constant')
    return diff

5 个答案:

答案 0 :(得分:10)

怎么样:

import pandas

x = pandas.DataFrame({
    'x_1': [0, 1, 2, 3, 0, 1, 2, 500, ],},
    index=[0, 1, 2, 3, 4, 5, 6, 7])

x['x_1'].rolling(window=2).apply(lambda x: x[1] - x[0])

通常,您可以使用自己的函数替换lambda函数。请注意,在这种情况下,第一项将是NaN

更新

定义以下内容:

def my_fun(x):
    return x[-1] - x[0]

x['x_1'].rolling(window=n_steps).apply(my_fun)

您可以计算n_steps的值之间的差异。

答案 1 :(得分:3)

如果你直接在底层的numpy数组上工作,你可以在https://stackoverflow.com/a/48345749/1011724中做同样的事情:

import numpy as np
diff_kernel = np.array([1,-1])
np.convolve(rs,diff_kernel ,'same')

其中rs是你的熊猫系列

答案 2 :(得分:2)

如果您有KeyError: 0,请尝试使用iloc

import pandas

x = pandas.DataFrame({
    'x_1': [0, 1, 2, 3, 0, 1, 2, 500, ],},
    index=[0, 1, 2, 3, 4, 5, 6, 7])

x['x_1'].rolling(window=2).apply(lambda x: x.iloc[1] - x.iloc[0])

答案 3 :(得分:1)

这应该有效:

pd.Series

对于给定的s_roll_diff = np.hstack((s.values[:4], running_diff(s.values, 4))) ,您必须为前几个项目定义所需内容。以下示例仅返回初始系列值。

np.array

这是有效的,因为您可以将pd.DataFrame直接分配给s,例如列df.s_roll_diff = np.hstack((df.s.values[:4], running_diff(df.s.values, 4)))var avail = element(by.xpath(".//*[@id='grd_Availability']/tbody/tr[1]/td[3]"));

答案 4 :(得分:0)

应用numpy.diff

import pandas as pd
import numpy as np

x = pd.DataFrame({
    'x_1': [0, 1, 2, 3, 0, 1, 2, 500, ],}
)

print(x)

>>>   x_1
0    0
1    1
2    2
3    3
4    0
5    1
6    2
7  500

print(x['x_1'].rolling(window=2).apply(np.diff))

>>>0      NaN
1      1.0
2      1.0
3      1.0
4     -3.0
5      1.0
6      1.0
7    498.0
Name: x_1, dtype: float64