获得属于因子

时间:2016-03-21 23:40:35

标签: r lm

我想自动确定lm中哪些系数属于一个因子。所以假设我有以下模型:

d <- data.frame(a = gl(4, 2, 16), b = gl(2, 1, 16), 
                x = runif(16), y = runif(16), Y = runif(16))
l1 <- lm(Y ~ a + b + x + y, data = d)
l2 <- lm(Y ~ x + y, data = d)

然后第一个模型的系数名称如下:

names(coef(l1))
# [1] "(Intercept)" "a2"          "a3"          "a4"          "b2"         
# [6] "x"           "y"

理想情况下,我想要一个函数告诉我a2, a3, a4b2是虚拟编码因子的系数。

对于不包含任何因素的模型(如l2),输出应为NULL

我查看了str(l1),我看到(如果模型中存在因素)有一个插槽xlevels。我可以使用names(l1$xlevels)获取模型中所有因子的列表,然后对系数名称使用grep

names(coef(l1))[unlist(sapply(names(l1$xlevels), function(.) grep(., names(coef(l1)))))]
# [1] "a2" "a3" "a4" "b2"

但在我看来,这似乎是一种非常肮脏的解决方法,并且只要我的模型中有相似的名字,它就不会起作用:

d$a4 <- runif(16)
l3 <- update(l1, . ~ . + a4, data = d)
names(coef(l3))[unlist(sapply(names(l3$xlevels), function(.) grep(., names(coef(l3)))))]
# [1] "a2" "a3" "a4" "a4" "b2"

此外,更改默认对比度将更改模型中虚拟系数的名称,因此即使是最精细的策略处理系数名称也可能无法正常工作。

长话短说:如何获得属于某个因子的所有系数的列表?

2 个答案:

答案 0 :(得分:1)

以下是一些方法:

1)这假设model.matrix中只包含零和1的任何列都属于一个因子(截距除外)。它适用于l1l2l3,非常短,不依赖于名称(截距除外),并且不需要摆弄lm对象组件。它适用于主要效果和相互作用,因为如果主效应为0/1,则相互作用也是如此。

l4

2)这不使用名称(拦截除外),适用于m <- model.matrix(l1) all01 <- apply(m == 0 | m == 1, 2, all) setdiff(names(all01[all01]), "(Intercept)") ## [1] "a2" "a3" "a4" "b2" l1l2(和l3 in评论)。它不假设模型矩阵,但仅适用于仅主效应模型。 (无拦截案件未经测试。)

l4

答案 1 :(得分:1)

在评论中进行了富有成效的讨论之后,我终于想出了这个解决方案。请注意,我稍微改变了所需的结果,不仅返回分配给因子的系数,还要区分这些系数是否属于因子主效应,因子因子相互作用或因子变量相互作用。我在讨论中包含了所有用例,并且输出正如预期的那样正确表征系数。

getCoefficientType <- function(mod) {
   INTCPT <- "(Intercept)"
   te <- mod$terms
   hasIntercept <- attr(te, "intercept") == 1
   ## factor terms
   predictors <- attr(te, "dataClasses")
   factors <- names(predictors[predictors == "factor"])
   if (hasIntercept) {
      termLabels <- c(INTCPT, attr(te, "term.labels"))
   } else {
      termLabels <- attr(te, "term.labels")
   }
   ## - loop through all terms in the model
   ## - split interactions at ":" into atoms
   ## - check if any of the atoms occurs in the factor list
   types <- sapply(strsplit(termLabels, ":"), function(x) {
      ind <- x %in% factors
      if (length(x) == 1) {
         if (x == INTCPT) {
            "intercept"
         } else if (ind) {
            "factor.main"
         } else {
            "variable.main"
         }
      } else {
         if (all(ind)) {
            "factor.factor.interaction"
         } else if (!any(ind)) {
            "variable.variable.interaction"
         } else {
            "factor.variable.interaction"
         }
      }
   })
   setNames(rep(types, rle(mod$assign)$length), names(coef(mod)))
}

d <- data.frame(a = gl(4, 2, 16), b = gl(2, 1, 16), 
                x = runif(16), y = runif(16), Y = runif(16), a4 = runif(16))
l1 <- lm(Y ~ a + b + x + y, data = d)
l2 <- lm(Y ~ x + y, data = d)
l3 <- update(l1, . ~ . + a4, data = d)
l4 <- update(l3, contrasts = list(a = "contr.poly"))
l5 <- update(l2, . ~ . + a:x + x:y)
l6 <- update(l5, . ~ . - 1)
getCoefficientType(l1)
getCoefficientType(l2)
getCoefficientType(l3)
getCoefficientType(l4)
getCoefficientType(l5)
getCoefficientType(l6)