解释MLR中的高P值

时间:2015-05-19 10:49:05

标签: regression rstudio linear

您好我在RStudio上做过线性回归模型,p值为0.2377,RSquared为0.3373。然而,我的一些预测因子具有统计学意义(3星)。这只是一个巧合,还是我可以说,即使我的模型没有产生显着的结果,仍然有一些重要的变量?

其次,我认为我的样本量对于预测变量的数量来说太小(500)(100)。使用统计上显着的(R上的3个星)变量构建模型是否有意义,或者由于p值高而错误?

任何帮助都会非常感谢!!!

1 个答案:

答案 0 :(得分:0)

我认为,没有重要的p值恒星意味着什么。对于给定数量的预测变量,您的数据集肯定太小了。根据经验,您应该具有不超过sqrt(n)个预测变量,其中n是数据集中的样本数。因此,下一步应该是使用多种方法之一评估预测变量的重要性,并减少预测变量的数量。例如,randomForest提供了相对简单的方法,即使您不打算将其用于预测。这是一个简单的例子:

library('randomForest')
data(iris)
iris.rf <- randomForest(Species ~ ., data=iris, proximity=TRUE)
plot(x=factor(colnames(iris)[1:4]), iris.rf$importance, type='h', ylab="Importance")