为什么测量体重变化R SQUARED?

时间:2019-03-03 17:34:35

标签: r survival

library(survival)
library(survminer)
library(dplyr)


ovarian=ovarian
ovarian$weighting = sample(1:100,26,replace=T)

fitWEIGHT <- coxph(Surv(futime, fustat) ~ age + rx,data=ovarian,weight=weighting)
fitNOWEIGHT <- coxph(Surv(futime, fustat) ~ age + rx,data=ovarian)

在此示例中,fitWEIGHT的R-Squared的值等于1。但是,没有假样本权重的同一模型的R-Squared小于一半(0.5)。为什么会这样?

1 个答案:

答案 0 :(得分:0)

这里的加权实际上是在重复观察。您正在使用分布在基础数据集中的完美分布的随机样本ovarian$weighting = sample(1:100,26,replace=T)计算权重。因此,根据正态分布的权重重新观察每组数据点可能会使函数产生偏差,以确保因变量和自变量之间具有完美的相关性。它可能不完全相关,但是1:100范围可能超出了默认的有效数字位数,因此四舍五入为1。如果将样本更改为1:10或40:50,则可能继续推动相关偏差,但将r2减小到接近1,而不是您在当前加权策略下现在看到的取整到1的值。

有关此功能权重的其他讨论,请参见下文。为确保您指定的权重是您期望进行此分析的权重类型。它实际上是对观察计数进行加权(即,对要为其分配权重的观察进行过度/重新采样的一种形式)。 https://www.rdocumentation.org/packages/survival/versions/2.43-3/topics/coxph

其中注明:

  

案例权重案例权重被视为复制权重,即   案例权重为2等于拥有该主题的2份副本   观察。当计算机小得多时,像主题一样分组   在一起是保存内存的常用技巧。全部设定   例如,权重为2会给出相同的系数估计值,但是   将差异减半。当领带的埃夫隆近似值(默认)为   使用的数据复制不会给出完全相同的结果   系数作为权重选项,在这种情况下为加权拟合   可以说是正确的。

     

当模型包含聚类项或robust = TRUE选项时,   计算方差将任何权重视为采样权重;设置全部   在这种情况下,权重为2将与权重1产生相同的变化。