我对R来说相当新,我正在尝试找到最好的模型来预测我的因变量来自多个预测变量。我有20个预测变量,我想知道哪些应该包含在我的模型中以及哪些应该排除。
我目前正在运行各自具有不同预测变量的模型,并比较它们以查看哪一个具有最低的AIC,但这需要很长时间。有更简单的方法吗?
提前谢谢你。
答案 0 :(得分:0)
这实际上是一个理论问题......
原则上,如果所有预测变量实际上都是模型的外生因素,那么它们都可以包含在一起并假设您有足够的数据(N>> 20)并且它们不太相似(这可能会导致多重共线性),这应该有助于预测。在实践中,您需要考虑每个(或任何)预测变量对模型是否实际上是外生的(即,与模型中的误差项无关)。如果他们不是,那么他们将对估计产生偏见。 (另外,省略实际需要的解释变量会产生偏差。)
如果预测准确度(即使是虚假的样本内准确性)是目标,那么像LASSO这样的技术(如评论中所述)也可以提供帮助。