比方说,我有一组日期和一组不同时间间隔的天数。
为了便于说明,我们说这些数字是从今天(9月29日)到现在(12月29日)的三个月,每月从三个月到两年,每季度从两到十年,每年一次。再过50年。
现在的要求是我们仍然遵循所有日期间隔“模式”,而是时间序列应该从季度的每个末尾开始(所以3月31日,6月30日,9月30日和12月31日),数字在它们之间线性插值。因此,使用上面的例子,我的新系列应该是每日数字,从9月30日(季度第一季度)到12月31日,每月从2012年12月31日到2014年12月31日,每季度从2014年12月31日到2022年12月31日,每年一次,新时间序列中不在旧时序列中的所有价格都使用线性插值计算。
我们有什么方法可以有效地做到这一点,是否有任何我可以使用的代码示例?
感谢您的帮助!
答案 0 :(得分:1)
以下是使用datetime
和calendar
执行此操作的方法。但是,相当冗长,要小心。
月份和季度有点棘手,例如,1月31日之后的一个月? 但方法可能如下所示:
为了测试,我包括了属于日期的随机值的生成。
from datetime import datetime, timedelta, date
import calendar
from random import random
def makeseries(startdate):
datesA = [startdate] # collect the dates in this list
valsA = [random()] # and the randomly generated 'data' in this one
date = startdate
# add days
step = timedelta(1)
while date - startdate <= timedelta(91):
date += step
datesA += [date]
valsA += [random()]
# add months
step = timedelta(30)
while date - startdate <= timedelta(2*365):
if date.month in [1,3,5,7,8,10,12]:
date += timedelta(1)
elif date.month == 2:
date -= timedelta(2)
date += step
datesA += [date]
valsA += [random()]
# add quarters
step = timedelta(91)
while date - startdate <= timedelta(int(365*10)):
date += step
if date.year % 4 == 0:
date += timedelta(1)
datesA += [date]
valsA += [random()]
# add years
step = timedelta(365)
while date - startdate <= timedelta(int(365*50)):
date += step
if date.year % 4 == 0:
date += timedelta(1)
datesA += [date]
valsA += [random()]
return datesA, valsA
def findIndexOfNearest(series, D):
# returns the index of the date in series that is closest to, but greater than D
for i, date in enumerate(series):
if date > D:
return i
return None
thisyear = datetime.today().year
quarterEndMonth = (datetime.today().month+2)//3*3
quarterEndDay = calendar.monthrange(thisyear, quarterEndMonth)[1]
d1,v1 = makeseries(date.today())
d2,_ = makeseries(date(thisyear,quarterEndMonth, quarterEndDay))
v2 = []
for d in d2:
i = findIndexOfNearest(d1, d)
if i:
prev = d1[i-1]
next = d1[i]
prevRatio = 1-(d-prev).total_seconds()/(next-prev).total_seconds()
nextRatio = 1-(next-d).total_seconds()/(next-prev).total_seconds()
interp = prevRatio*v1[i-1] + nextRatio*v1[i]
v2 += [interp]
print("%s = %.2f * %s + %.2f * %s" % (d, prevRatio, prev, nextRatio, next))
print("%17.2f * %10.2f + %.2f * %10.2f = %.2f" % \
(prevRatio, v1[i-1], nextRatio, v1[i], interp))
else: # date to be interpolated is past last original date
v2 += [v1[-1]]
print("%s = 1.00 * %s = %24.2f" % (d,d1[-1],v1[-1]))
在这里,原来的系列刚刚转为3个月的缺口,11月有一个日期,明年2月有另一个。我们插入的日期是12月。
original original
date date
v v
2014-12-02 = 0.69 * 2014-11-04 + 0.31 * 2015-02-03
^ 0.69 * 0.95 + 0.31 * 0.10 = 0.69
| ^ ^ ^ ^ ^
| | original | original interpolated
date from | value | value value
2nd series weight weight