我正在尝试使用OLS回归来预测ustar的缺失(NAN)值,使用风速(WS)的知识数据,按月变化的WS和使用刚才提到的所有变量的已知值的辐射(Rn) 。公式中的所有变量在数据帧中的某个点确实有一些缺失的数据,但是我的回归公式给出了我与公式中所有变量的强相关性以及.80的R平方值,所以我知道这种间隙填充方法预测回归数据是可行的。以下是我的代码:
regression_data = pd.DataFrame([])
regression_data['ustar'] = data['ustar']
regression_data['WS'] = data['WS']
regression_data['Rn'] = data['Rn']
regression_data['month'] = data.index.month
formula = "ustar ~ WS + (WS:C(month)) + (WS:Rn) + 1"
regression_model = sm.regression.linear_model.OLS.from_formula(formula,regression_data)
results = regression_model.fit()
predicted_values = results.predict(regression_data)
Traceback (most recent call last):
File "<ipython-input-61-073df0b2ae63>", line 1, in <module>
predicted_values = results.predict(regression_data)
File "/Users/JasonDucker/anaconda/lib/python3.5/site-packages/statsmodels/base/model.py", line 739, in predict
exog = dmatrix(self.model.data.orig_exog.design_info.builder,
File "/Users/JasonDucker/anaconda/lib/python3.5/site-packages/pandas/core/generic.py", line 2360, in __getattr__
(type(self).__name__, name))
AttributeError: 'DataFrame' object has no attribute 'design_info'
我知道同样的错误已经过去了类似的问题,但我知道我的公式的复杂性是否在&#34;预测&#34;属性编码。我想知道是否有人对如何处理这个问题有一个看法。