在Pandas中移动窗口以检查特定范围值

时间:2018-02-22 13:09:01

标签: python pandas numpy time-series

我有我的时间序列数据,我想检查t + 5和t-5窗口中的数据并检查它是否介于0.1和5之间,然后需要将该时间标记为1,同样如果同一窗口中的值大于5然后它应返回2否则返回零。

我试过这样的话,请你建议是否有更有效的方法。

def my_func(arr,thres=5,lwthres=0.1):
    arr=arr.astype(float)
    if((arr[0]<thres) & (arr[1]<thres) & (arr[2]<thres) &(arr[3]<thres) &(arr[4]<thres)\
       &(arr[5]<thres)&(arr[6]<thres)&(arr[7]<thres)&(arr[8]<thres)&(arr[9]<thres)\
       & (arr[0]>=lwthres) & (arr[1]>=lwthres) & (arr[2]>=lwthres) &(arr[3]>=lwthres)\
       & (arr[4]>lwthres) &(arr[5]>=lwthres)&(arr[6]>=lwthres)&(arr[7]>=lwthres)&(arr[8]>=lwthres)&(arr[9]>=lwthres)):
        return 1   
    elif((arr[0]>=thres) & (arr[1]>=thres) & (arr[2]>=thres) &(arr[3]>=thres) &(arr[4]>=thres) &(arr[5]>=thres)&(arr[6]>=thres)&(arr[7]>=thres)&(arr[8]>=thres)&(arr[9]>=thres)):        
        return 2
    else:
        return 0

my_data=np.random.randint(5,size=100000)
my_df=pd.DataFrame(my_data)
tp=my_df.rolling(window=10,center=True).apply(lambda x:my_func(x))
df=pd.DataFrame()
df['value']=my_data
df['Type']=tp

2 个答案:

答案 0 :(得分:2)

我认为这样的事情应该更短,但想法是一样的:

def my_func(arr,thres=5,lwthres=0.1):
    arr=arr.astype(float)
    if(max(arr[0]<thres) & min(arr)>=lwthres):
        return 1   
    elif(min(arr)>=thres)):        
        return 2
    else:
        return 0

答案 1 :(得分:2)

对@ Alex的答案的改进只是第一次计算数组min_value

def my_func(arr, thres=5, lwthres=0.1):
    arr=arr.astype(float)

    min_value, max_value = np.inf, np.NINF
    for i in arr:
        if i < min_value:
            min_value = i
        if i > max_value:
            max_value = i

    if min_value >= thres:
        return 2
    elif max_value < lwthres:
        return 0
    else:
        return 1

进一步改进是通过成对比较计算min_valuemax_value来减少比较次数。