我有一个特定的方式,我想引导以下生存数据(" mydata&#34 ;;这只是完整数据集的一个示例):
[HKEY_LOCAL_MACHINE\SOFTWARE\Microsoft\Service Fabric]
每一行都是一个人(幸存=" 1")或死亡(幸存=" 0")。每个人聚集四个人。我希望引导程序的每次迭代都只对每个杯子中的一个随机个体进行采样,并且估计均值和sd。下一次迭代将再次对每个杯子采样一个个体,其可以是或可以不是在第一次迭代中采样的相同个体。
到目前为止,我已经成功地只对所有杯子中的替换进行随机抽样,因此每次迭代可能会计算两个独立的个体来自同一个杯子,而从另一个杯子中取样为零。这是代码:
cup surv
100-9 0
100-9 0
100-9 1
100-9 1
101-9 0
101-9 0
101-9 0
101-9 0
51-1 0
51-1 1
51-1 1
51-1 1
我不认为聚类分析是正确的方法,我认为这是嵌套的子采样(有限制?)。如果您有一个有用的提示,请告诉我!
谢谢。
P.S。对于奖励真棒点,如何使用逻辑回归[最好使用glm(,family = binomial)]对群组中的自举生存估计进行建模,例如:
library(boot)
surv.mean = function(x, indices) {
return( mean( x[indices] ) )
}
surv.boot <- boot(mydata$surv, surv.mean, 10000)
boot.ci(surv.boot)
答案 0 :(得分:0)
使用dplyr
:
library(dplyr)
subsample <- mydata %>%
group_by(cup) %>%
sample_n(1)