pandas statsmodels中的predict(),添加自变量

时间:2015-03-21 22:21:24

标签: python pandas linear-regression statsmodels

数据:https://courses.edx.org/c4x/MITx/15.071x_2/asset/climate_change.csv

我用pandas构建多元线性回归模型:

import pandas as pd
import statsmodels.api as sm

climate = pd.read_csv("climate_change.csv")
climate_train = climate.query('Year <= 2006')
climate_test = climate.query('Year > 2006')

y = climate_train['Temp']
x = climate_train[['MEI', 'N2O', 'TSI', 'Aerosols']]
x = sm.add_constant(x)
model2 = sm.OLS(y, x).fit()
model2.summary()

我想在我的测试数据集上测试它:

model2.predict(climate_test)

但是我收到以下错误:

ValueError: shapes (24,11) and (5,) not aligned: 11 (dim 1) != 5 (dim 0)

this question我怀疑这可能与我没有在我的测试数据集中添加常量这一事实有关,但是

model2.predict(sm.add_constant(climate_test))

也不起作用。如果我明确列出了自变量,它就可以工作:

model2.predict(sm.add_constant(climate_test[['MEI', 'N2O', 'TSI', 'Aerosols']]))

但是,因为model2已经&#34;知道&#34;这些变量,我无法看到为什么我应该在方法调用中重复它们。

如何在不明确调用自变量的情况下预测()?

1 个答案:

答案 0 :(得分:2)

我认为没有办法完全自动完成。

如果您正在尝试保存输入,请将“x-columns”存储在变量中供以后使用:xvars = ['MEI', 'N2O', 'TSI', 'Aerosols']并在代码的早期和晚期使用此功能以节省输入。