如何在Statsmodels中的OLS的预测结果中识别主题?

时间:2019-02-26 22:22:58

标签: python statsmodels patsy

我正在使用Jupyter笔记本中的Statsmodels进行线性回归。数据位于一个名为“ train_base”的DataFrame中,其中的id列标识数据库的每个唯一主题。 Train_base是这样的:

id     y     x0     x1     x2
a123   20     8      1      3
b789   33     8      3      2
d782   77     9      6      5      

主要代码如下所示。请注意,我正在使用另一个称为“ test_base”的基准进行预测,该基准也具有与“ train_base”相同的结构,除了“ y”列:

results = smf.ols('y ~ x0 + x1 + x2', data=train_base).fit()
predictions = results.predict(test_base)
predictions.head()

预测是这样的:

0   -0.054789
1   -0.036042
2   -0.043962
3   -0.135725
4   -0.409129
dtype: float64

在我看来,预测中显示的第一列是原始train_base的索引(我正确吗?)。由于我需要确定测试基础的每个人的预测值,因此我该怎么做才能在预测中包含“ id”列?

2 个答案:

答案 0 :(得分:0)

首先:是的,id列是一个索引。 第二:我无权访问您的数据来检验我的建议,但我认为以下方法可能有效(或类似方法):

predict = pd.DataFrame(results.predict(test_base), train_base['id'])
predict.columns = ['predict']
predict

我认为,如果您的预测中出现的每个值都与每个id索引相关,那么这可以奏效,因为此代码的目的是创建一个由预测结果和id索引组成的数据框。

答案 1 :(得分:0)

在@Leda Grasiele的答案中进行了一些细微的更正(包括内部方括号和对换位函数的使用),我得出了正确的代码,如下所示:

predict = pd.DataFrame([results.predict(test_base), train_base['id']]).T
predict.columns = ['predictions', 'id']
predict