library(survival)
library(survminer)
library(dplyr)
ovarian=ovarian
ovarian$weighting = sample(1:100,26,replace=T)
fitWEIGHT <- coxph(Surv(futime, fustat) ~ age + rx,data=ovarian,weight=weighting)
fitNOWEIGHT <- coxph(Surv(futime, fustat) ~ age + rx,data=ovarian)
在此示例中,fitWEIGHT的R-Squared的值等于1。但是,没有假样本权重的同一模型的R-Squared小于一半(0.5)。为什么会这样?
答案 0 :(得分:0)
这里的加权实际上是在重复观察。您正在使用分布在基础数据集中的完美分布的随机样本ovarian$weighting = sample(1:100,26,replace=T)
计算权重。因此,根据正态分布的权重重新观察每组数据点可能会使函数产生偏差,以确保因变量和自变量之间具有完美的相关性。它可能不完全相关,但是1:100范围可能超出了默认的有效数字位数,因此四舍五入为1。如果将样本更改为1:10或40:50,则可能继续推动相关偏差,但将r2减小到接近1,而不是您在当前加权策略下现在看到的取整到1的值。
有关此功能权重的其他讨论,请参见下文。为确保您指定的权重是您期望进行此分析的权重类型。它实际上是对观察计数进行加权(即,对要为其分配权重的观察进行过度/重新采样的一种形式)。 https://www.rdocumentation.org/packages/survival/versions/2.43-3/topics/coxph
其中注明:
案例权重案例权重被视为复制权重,即 案例权重为2等于拥有该主题的2份副本 观察。当计算机小得多时,像主题一样分组 在一起是保存内存的常用技巧。全部设定 例如,权重为2会给出相同的系数估计值,但是 将差异减半。当领带的埃夫隆近似值(默认)为 使用的数据复制不会给出完全相同的结果 系数作为权重选项,在这种情况下为加权拟合 可以说是正确的。
当模型包含聚类项或robust = TRUE选项时, 计算方差将任何权重视为采样权重;设置全部 在这种情况下,权重为2将与权重1产生相同的变化。