Durbin-Watson统计一维时间序列数据

时间:2017-04-10 11:33:37

标签: python numpy statistics correlation statsmodels

我正在尝试确定一个时间序列(如一个浮点数列表)是否与自身相关。我已经在statsmodels(http://statsmodels.sourceforge.net/devel/generated/statsmodels.tsa.stattools.acf.html)中玩了acf函数,现在我正在研究Durbin-Watson统计数据是否有任何价值。

似乎这种事情应该有效:

from statsmodels.regression.linear_model import OLS
import numpy as np

data = np.arange(100)  # this should be highly correlated
ols_res = OLS(data)
dw_res = np.sum(np.diff(ols_res.resid.values))

如果你要运行它,你会得到:

Traceback (most recent call last):
...
  File "/usr/lib/pymodules/python2.7/statsmodels/regression/linear_model.py", line 165, in initialize
    self.nobs = float(self.wexog.shape[0])
AttributeError: 'NoneType' object has no attribute 'shape'

似乎D / W通常用于比较两个时间序列(例如http://connor-johnson.com/2014/02/18/linear-regression-with-python/)的相关性,所以我认为问题是我没有通过另一个时间序列进行比较。也许这应该在exog参数中传递给OLS

exog : array-like

A nobs x k array where nobs is the number of observations and k is
the number of regressors.

(来自http://statsmodels.sourceforge.net/devel/generated/statsmodels.regression.linear_model.OLS.html

旁注:我不确定“nobs x k”数组是什么意思。也许x k的数组是data

那我该怎么办呢?我希望两次通过 int64_t a = 100000; int64_t b = 100001; int64_t c = a * b; ,  或者自己手动滞后,或者?

谢谢!

2 个答案:

答案 0 :(得分:2)

OLS是需要y和x(或endog和exog)的回归。在你的情况下,x必须至少是一个常数,即。 np.ones(len(endog),1)。

此外,您需要适合模型,即ols_res = OLS(y, x).fit()

nobs x k表示2行,行中有nobs观察,列中有k个变量,即exog.shape为(nobs, k)

Durbin Watson是序列相关性的检验统计量。它包含在OLS摘要输出中。 statsmodels中还包含其他无自相关测试。

(我建议通过一些示例或教程笔记本。)

答案 1 :(得分:0)

我已接受user333700的回答,但我想发布一个代码段跟进。

这个小程序计算线性范围的durbin-watson相关性(应该是高度相关的,因此给出接近0的值),然后计算随机值(不应该相关,因此给出接近2的值) ):

from statsmodels.regression.linear_model import OLS
import numpy as np
from statsmodels.stats.stattools import durbin_watson



def dw(data):
    ols_res = OLS(data, np.ones(len(data))).fit()
    return durbin_watson(ols_res.resid)


print("dw of range=%f" % dw(np.arange(2000)))
print("dw of rand=%f" % dw(np.random.randn(2000)))

运行时:

dw of range=0.000003
dw of rand=2.036162

所以我认为看起来不错:)