如何解释滞后与当前变量散点图

时间:2016-03-07 17:01:51

标签: python numpy scipy time-series correlation

我对统计数据和时间序列都很陌生,我正在按照本教程(http://www.johnwittenauer.net/a-simple-time-series-analysis-of-the-sp-500-index/)进行时间序列分析。所以,我得到了我的第一个数据差异的固定时间序列,所以我没有采取任何日志的第一个区别。 (见附件)。我还创建了滞后变量1440,因为我的数据分辨率为1分钟(每分钟服务器的事务计数),因此我想使用前一天的数据来预测第二天。出于这个原因,我绘制了滞后1440与滞后0变量的散点图,我似乎无法解释该情节。在我看来,它是每周与co有关,但任何人都可以确认吗?

另外,我确实从scipy.stats.stats尝试了pearsonr函数,它返回(nan,1.0),而numpy.corrcoef()返回所有的nan矩阵。

任何帮助都会受到赞赏。

提前致谢。

first diff & log first diff

Lag 1440 vs Lag 0

1 个答案:

答案 0 :(得分:0)

在这里,我将回答您问题的第二部分 - 与编程有关的部分(关于散点图的解释,请参阅我对该问题的评论)。

2。您获得相关性的事实可能是由于数据中存在nans或其他无效值。事实上,第二个时间序列中存在短暂的差距(在7月份蜱之后的第3次飙升之前)。这样的差距通常表明没有。

如果您在数据中有这样的无效值(nan,inf等),它们通常会传播到摘要统计信息,例如相关性。

解决方案取决于手头的问题。您可以尝试跳过缺少值的时间序列部分,也可以尝试使用默认值(例如0)替换它们。