我正在尝试采用Cox比例风险模型来分析抗议事件数量对不同国家不同政治制度生存率的影响。
我的数据集看起来与此类似:
Country year sdate edate time evercollapsed protest GDPgrowth
Country A 2003 1996-11-24 2012-12-31 5881 0 78 14.78
Country A 2004 NA NA NA 0 99 8.56
Country A 2005 NA NA NA 0 25 3.56
Country B 2003 2000-10-26 2011-05-21 3859 1 13 2.33
Country B 2004 NA NA NA 1 28 5.43
Country B 2005 NA NA NA 1 7 1.89
因此,基本上我的数据集提供了每年有关多个变量的年度信息,但有关该制度的开始和结束日期以及生存时间(以天为单位)的信息仅在每个变量的第一行中提供。鉴于政治制度。
我的数据包括48个不同政治制度的信息,其中15个在我看的时间范围内崩溃。
我在生存包中安装了Cox PH模型:
myCPH <- coxph(Surv(time, evercollapsed) ~ protest + GDPgrowth, data = mydata)
这给了我以下结果:
Call:
coxph(formula = Surv(time, evercollapsed) ~ protest + GDPgrowth,
data = mydata)
coef exp(coef) se(coef) z p
protest 0.01630 1.01644 0.00722 2.26 0.024
GDPgrowth -0.03447 0.96612 0.01523 -2.26 0.024
Likelihood ratio test=9.26 on 2 df, p=0.00977
n= 48, number of events= 15
(556 observations deleted due to missingness)
因此,这些结果意味着我失去了556个国家年,因为我的数据框中的行不包含有关该政权生存时间的信息。
我现在的问题是,如何将国家年份纳入分析中,而不提供有关sdate,edate和time的信息?
我认为,如果我只是复制每个国家/地区的信息,这会增加我的政权崩溃的数量?
我认为我必须为每个政治制度提供一个唯一的ID,以确保R可以区分不同的案例。那么,我如何在分析中使用包含差异国家年信息的Cox PH模型?
非常感谢提前!