我从Yahoo财务部门获得了 Amazon股票数据,但有些日子没有数据。
我想知道是否有一种方法,可以使用 google collab 来“创建”那些丢失的日子,并用相邻日子的平均值来填充它们。
我想在缺失天前后使用最近的数据日期来创建缺失日期的数据。
我看过许多关于松弛的答案,但是找不到解决方案的具体答案。看起来最接近的命令是:
ws = Amazon.worksheet('Amazon')
idx = pd.date_range(start = '05-15-1997', end = '07-05-2019')
Amazon_df = get_as_dataframe(ws)
AMZ = pd.DataFrame(Amazon_df)
AMZ.index = pd.DatetimeIndex(AMZ.index)
AMZ = AMZ.reindex(idx, fill_value=np.nan)
此命令的问题在于,我将不得不手动添加缺少的日期,而对于Amazon库存,这将花费很长时间。
我似乎无法弄清楚如何解决这个问题。电子表格的链接为https://docs.google.com/spreadsheets/d/1fLicjjVRTchd8ps6aiVsGfP1GVFfvJN2rgfoYxxSHZk/edit?usp=sharing
我想弄清楚这些数据,这样我就可以绘制出没有随机“缺失”天的图表。我想用实际有数据的前后几天的平均值来填充“缺失”的日子。
答案 0 :(得分:0)
我认为您可以使用模拟来填充缺失值。我有一个函数rts_clean()
,但是在R代码(GeoRTS
包)中,它基于STL-黄土分解(趋势,平稳性和噪声,允许丢失值),首先分解那些中的时间序列3个组件,然后您只需使用其分布来模拟噪声值(适用于可用数据)。然后,您将获得如下内容:
代码: https://github.com/InstitutoInvestigacionesEconomicasPUCE/geortsBeta/blob/master/R/rts_clean.R