Question

请考虑以下内容：

在使用geepack拟合GEE时，我们收到一个模型，我们可以predict使用新值，但是基数R不支持GEE模型来计算置信区间。要获得置信区间，我们可以使用emmeans::emmeans()。

如果模型中的变量是连续且连续的，则会遇到问题。

用emmeans::emmeans()估计边际均值时，我发现边际均值是根据总体数据而不是每组数据计算的。

问题：如何从R中的GEE模型获得每组的估计均值，包括置信区间？

最小的可复制示例：

数据

library("dplyr")
#> 
#> Attaching package: 'dplyr'
#> The following objects are masked from 'package:stats':
#> 
#>     filter, lag
#> The following objects are masked from 'package:base':
#> 
#>     intersect, setdiff, setequal, union
library("emmeans")
#> Warning: package 'emmeans' was built under R version 3.5.2
library("geepack")

# Adding a grouping variable
pigs.group <- emmeans::pigs %>% mutate(group = c(rep("a", 20), rep("b", 9)))

拟合模型

# Fitting the model
fit <- geepack::geeglm(conc ~ as.numeric(percent) + factor(group),
                       id = source, data = pigs.group)

# Model results
fit
#> 
#> Call:
#> geepack::geeglm(formula = conc ~ as.numeric(percent) + factor(group), 
#>     data = pigs.group, id = source)
#> 
#> Coefficients:
#>         (Intercept) as.numeric(percent)      factor(group)b 
#>           20.498948            1.049322           10.703857 
#> 
#> Degrees of Freedom: 29 Total (i.e. Null);  26 Residual
#> 
#> Scale Link:                   identity
#> Estimated Scale Parameters:  [1] 36.67949
#> 
#> Correlation:  Structure = independence  
#> Number of clusters:   3   Maximum cluster size: 10

使用emmeans::emmeans()计算边际均值和LCL / UCL。但是，percent的组均值在两个组中均为12.9。这是percent的总体观察平均值，而不是组平均值。

# Calculating marginal means per group.
# Note that 'percent' is the same for both groups
emmeans::emmeans(fit, "percent", by = "group")
#> group = a:
#>  percent emmean    SE  df asymp.LCL asymp.UCL
#>     12.9   34.1 3.252 Inf      27.7      40.4
#> 
#> group = b:
#>  percent emmean    SE  df asymp.LCL asymp.UCL
#>     12.9   44.8 0.327 Inf      44.1      45.4
#> 
#> Covariance estimate used: vbeta 
#> Confidence level used: 0.95

# Creating new data with acutal means per group
new.dat <- pigs.group %>%
        group_by(group) %>%
        summarise(percent = mean(percent))

# These are the actual group means
new.dat
#> # A tibble: 2 x 2
#>   group percent
#>   <chr>   <dbl>
#> 1 a        13.2
#> 2 b        12.3

使用predict进行预测还可以返回每组其他估计的均值，但是无法估计基R中GEE的置信区间。

# Prediction with new data
# These should be the marginal means but how to get the confidence interval?
predict(fit, newdata = new.dat)
#>        1        2 
#> 34.35000 44.14444

^{由reprex package（v0.2.1）于2019-02-08创建}

Answer 1

您认为这是一个计算问题，事实证明这是一个统计问题...

在模型中有协变量时，事后分析中常用的方法是控制这些协变量的。在给出的示例中，我们想比较不同组中的平均响应。但是，响应也受协变量percent的影响，并且每个组的平均百分比不同。如果我们仅计算每个组的边际均值，则这些均值的不同部分是由于percent的影响。

在一个极端的例子中，想象一下这样一个情况：该组没有任何区别，而percent却没有任何区别。然后，如果各组之间的平均值percent值之间的差异足够大，那么我们可以采用统计学上不同的平均值，但是它们的差异是由于percent的影响，而不是因为group的影响

由于这个原因，通过以相同百分比（即数据集中的总体平均百分比）预测均值来获得“公平”比较。这是方法中使用的默认方法，其结果称为调整后的平均值（在设计教科书中查找）。

在某些情况下，使用不同的百分比值是适当的，这就是百分比是“中介变量”的情况；也就是说，百分比落在治疗与反应之间的因果关系中，因此group被认为会影响percent和反应。参见vignette on messy data, in the subsection on mediating covariates。

如果您真的认为percent是中介协变量，则可以这样获得单独的百分比：

emmeans(model, "group", cov.reduce = percent ~ group)

但是，在percent被认为独立于group的情况下，请勿这样做！

R

1 个答案: