有没有人知道有效的函数/方法,例如pandas.rolling_mean
,它会计算数组的滚动差异
这是我最接近的解决方案:
roll_diff = pd.Series(values).diff(periods=1)
但是,它只计算单步滚动差异。理想情况下,步长是可编辑的(即当前时间步长和最后步骤之间的差异)。
我也写过这个,但对于较大的数组,它很慢:
def roll_diff(values,step):
diff = []
for i in np.arange(step, len(values)-1):
pers_window = np.arange(i-1,i-step-1,-1)
diff.append(np.abs(values[i] - np.mean(values[pers_window])))
diff = np.pad(diff, (0, step+1), 'constant')
return diff
答案 0 :(得分:10)
怎么样:
import pandas
x = pandas.DataFrame({
'x_1': [0, 1, 2, 3, 0, 1, 2, 500, ],},
index=[0, 1, 2, 3, 4, 5, 6, 7])
x['x_1'].rolling(window=2).apply(lambda x: x[1] - x[0])
通常,您可以使用自己的函数替换lambda
函数。请注意,在这种情况下,第一项将是NaN
。
定义以下内容:
def my_fun(x):
return x[-1] - x[0]
x['x_1'].rolling(window=n_steps).apply(my_fun)
您可以计算n_steps
的值之间的差异。
答案 1 :(得分:3)
如果你直接在底层的numpy数组上工作,你可以在https://stackoverflow.com/a/48345749/1011724中做同样的事情:
import numpy as np
diff_kernel = np.array([1,-1])
np.convolve(rs,diff_kernel ,'same')
其中rs
是你的熊猫系列
答案 2 :(得分:2)
如果您有KeyError: 0
,请尝试使用iloc
:
import pandas
x = pandas.DataFrame({
'x_1': [0, 1, 2, 3, 0, 1, 2, 500, ],},
index=[0, 1, 2, 3, 4, 5, 6, 7])
x['x_1'].rolling(window=2).apply(lambda x: x.iloc[1] - x.iloc[0])
答案 3 :(得分:1)
这应该有效:
pd.Series
对于给定的s_roll_diff = np.hstack((s.values[:4], running_diff(s.values, 4)))
,您必须为前几个项目定义所需内容。以下示例仅返回初始系列值。
np.array
这是有效的,因为您可以将pd.DataFrame
直接分配给s
,例如列df.s_roll_diff = np.hstack((df.s.values[:4], running_diff(df.s.values, 4)))
,var avail = element(by.xpath(".//*[@id='grd_Availability']/tbody/tr[1]/td[3]"));
答案 4 :(得分:0)
应用numpy.diff
:
import pandas as pd
import numpy as np
x = pd.DataFrame({
'x_1': [0, 1, 2, 3, 0, 1, 2, 500, ],}
)
print(x)
>>> x_1
0 0
1 1
2 2
3 3
4 0
5 1
6 2
7 500
print(x['x_1'].rolling(window=2).apply(np.diff))
>>>0 NaN
1 1.0
2 1.0
3 1.0
4 -3.0
5 1.0
6 1.0
7 498.0
Name: x_1, dtype: float64