对于这个数据集,我有一个疾病数据集。 disease_rate是因变量,其余是独立变量。
{{1}}
这里只有半径的p值-P <= 0.05,其余所有其他变量的p值都大于该半径。
在这种情况下有什么方法可以进行变量选择吗?导致其余所有其他变量具有更大的p值。
如果我们可以进行变量选择,请提出建议。还请帮助我为该模型提取Mallows CP值。
请帮助。
答案 0 :(得分:2)
变量和模型选择在很大程度上取决于模型的目的。对于一般规则,请记住以下概括:
获取Mallow的Cp:
fit <- lm(formula = desease_rate ~ radius + texture + perimeter + area + smoothness, data = df1)
library(locfit)
cp(fit)
您可以查看文档here。
为制作的每种模型查找Mallow的Cp-较低的Mallow的Cp表示更精确的模型