Question

我想计算进入公式右侧的变量数量。有没有这样做的功能？

例如：

y<-rnorm(100)
x1<-rnorm(100)
x2<-rnorm(100)
x3<-rnorm(100)
f<-formula(y~x1+x2+x3)

然后，我会调用SomeFunction(f)，它将返回3（因为在等式的右边有3个x变量）。 SomeFunction是否存在？

Answer 1

您可能需要查看formula帮助页面中链接的一些相关功能。特别是terms：

> terms(f)
y ~ x1 + x2 + x3 + x4
attr(,"variables")
list(y, x1, x2, x3, x4)
attr(,"factors")
   x1 x2 x3 x4
y   0  0  0  0
x1  1  0  0  0
x2  0  1  0  0
x3  0  0  1  0
x4  0  0  0  1
attr(,"term.labels")
[1] "x1" "x2" "x3" "x4"
attr(,"order")
[1] 1 1 1 1
attr(,"intercept")
[1] 1
attr(,"response")
[1] 1
attr(,".Environment")
<environment: R_GlobalEnv>

请注意“term.labels”属性。

Answer 2

以下是两种可能性：

length(attr(terms(f), "term.labels"))

length(all.vars(update(f, z ~.))) - 1

Answer 3

根据您的评论，这可能取决于您对模型的拟合程度......

对于线性模型，这些答案都给出了12：

set.seed(1)
df1 <- data.frame (y=rnorm(100),
                   x=rnorm(100),
                   months=sample(letters[1:12], replace=TRUE, size=100))
f1 <-formula(y~x+factor(months))
l1 <- lm(f1, data=df1)
ncol(l1$qr$qr)-1

或

length(colnames(l1$qr$qr))-1

此处qr是用于拟合模型的QR decomposition of a matrix。它将包含否。感兴趣的参数。

您还可以找到model.frame中哪些变量是因子，例如：

length(unique(model.frame(l1)[["factor(months)"]]))

或更常见的是使用.getXlevels，它会为您提供预测方面每个因素的唯一值列表，如：

length( stats::.getXlevels(terms(l1), model.frame(l1))[[1]] )

更新

@Mark Miller正在咆哮着一棵更好的树。如果您的模型有AIC - 类型方法可用，您应该可以使用它来获取否。参数。对于lm，它是stats中隐藏的S3方法，因此请将其称为：

stats:::extractAIC.lm(l1)[[1]] -1

Answer 4

如果你想计算估计参数的数量，正如你在G. Grothendieck的答案中所建议的那样，你可以尝试下面的代码。我为错误术语添加了一个n.coefficients，就像使用AIC一样。

n      <- 20                                       # number of observations
B0     <-  2                                       # intercept
B1     <- -1.5                                     # slope 1
B2     <-  0.5                                     # slope 2
B3     <- -2.5                                     # slope 3
sigma2 <-  5                                       # residual variance

x1     <- sample(1:3, n, replace=TRUE)             # categorical covariate
x12    <- ifelse(x1==2, 1, 0)
x13    <- ifelse(x1==3, 1, 0)
x3     <- round(runif(n, -5 , 5), digits = 3)      # continuous covariate
eps    <- rnorm(n, mean = 0, sd = sqrt(sigma2))    # error
y      <- B0 + B1*x12 + B2*x13 + B3*x3 + eps       # dependent variable
x1     <- as.factor(x1)

model1 <- lm(y ~ x1 + x3)                          # linear regression
model1

summary(model1)

n.coefficients <- as.numeric(sapply(model1, length)[1]) + 1
n.coefficients

# [1] 5

以下是n.coefficients代码的更直接的替代方法：

n.coefficients2 <- length(model1$coefficients) + 1
n.coefficients2

# [1] 5

计算公式中的变量

4 个答案: