时间序列中时间窗口的最大上升

时间:2019-04-07 10:55:29

标签: python pandas

想知道是否有一种快速的方法可以在一个窗口内获得时间序列的最大涨幅。

目标代码是...

import datetime
import numpy as np
import pandas as pd

base = datetime.datetime.today()

date_list = [base - datetime.timedelta(days=x) for x in range(0, 365)]

data = np.random.randint(low=1, high=10, size=len(date_list))

df = pd.DataFrame({'date': date_list, 'value': data})

def biggest_rise(df, windowsize = 10):
    '''gets the biggest rise within a window size specified
    '''
    # Some magic code here
    return df.rolling_max(window=10, ...)

3 个答案:

答案 0 :(得分:0)

我想我找到了答案……按照下面的代码。将上限提高到10K才能真正看到变化:

import datetime
import numpy as np
import pandas as pd

base = datetime.datetime.today()

date_list = [base - datetime.timedelta(days=x) for x in range(0, 365)]

data = np.random.randint(low=1, high=10000, size=len(date_list))

df = pd.DataFrame({'date': date_list, 'value': data})

window = 10

dfs = [df.iloc[i: i+window] for i in range(0, len(df)) if i+window < len(df)]

biggest_rise = max([d.value.max()-d.value.min() for d in dfs])
  • 获取112 ms的365个数据点。任何更好的都欢迎。

  • 最大上升可能是窗口中的最大下降。不知道如何区分。

答案 1 :(得分:0)

我并没有真正理解您所说的“最大涨幅”,但是使用滚动可能会有所帮助。例如,使用该代码,您可以在10天的时间范围内获得最大值和最小值之差:

df.sort_values(['date']).set_index('date').rolling('10d').max() - df.sort_values(['date']).set_index('date').rolling('10d').min()

答案 2 :(得分:0)

使用@ TywinLannister88建议,这是获得最大涨幅的更好答案:

import numpy as np
import pandas as pd

base = datetime.datetime.today()

date_list = [base - datetime.timedelta(days=x) for x in range(0, 365)]

data = np.random.randint(low=1, high=10000, size=len(date_list))

df = pd.DataFrame({'date': date_list, 'value': data})

# 10-day rolling window
df1 = df.sort_values(['date']).set_index('date').rolling('10d').max() - \
      df.sort_values(['date']).set_index('date').rolling('10d').min()

# percent change to see if there is a rise or fall
df2 = df.sort_values(['date']).set_index('date').value.pct_change(periods=10)

# filter out the rises (pctchange > 0) and find the maximum rise
df3 = df.sort_values(['date']).set_index('date').assign(delta=df1, pctchange=df2)
biggest_rise = df3[df3.pctchange>0].pctchange.max()