这可能需要一些解释,但现在可以了。
为了这个例子,假设我有2列与真实世界观测数据(RealX)相关,4列与该真实世界数据的模型输出相关的预测(ModX)。更复杂的是,数据按分类变量分组。
我想要做的是确定每个分类变量的观测值和预测值之间的最佳线性回归模型(lm(RealX~ModX))。对于哪个列给出最佳模型而不是每个类别的最佳模型的R平方和P值,我真的不太感兴趣。
这里有一些示例数据来说明数据结构:
RealA <- c(3,2,2,6,7,9,3,1,4,6)
RealB <- c(3,2,1,5,8,8,4,2,5,5)
Mod1 <- c(2,2,3,4,6,7,4,1,5,6)
Mod2 <- c(1,4,2,4,7,8,4,2,6,5)
Mod3 <- c(3,2,2,5,8,7,5,3,4,5)
Mod4 <- c(3,1,1,3,8,7,3,2,5,6)
Cat <- c("A", "A", "A", "A", "A", "B", "B", "B", "B", "B")
DF <- data.frame(Cat, RealA, RealB, Mod1, Mod2, Mod3, Mod4)
因此,对于上面的例子,我想找到A类和B类最佳线性回归模型的R平方和p值。
由于