道歉,如果这更像是一个统计问题。
我目前正在处理我试图在Stata中解决的多重插补问题。在插补阶段之后,我想估计E(Y,X,Z | C = 1),其中Y和Z是完整的,X和C都是不完全变量,其缺失值是多次估算的。
在Stata中,我的多重插补命令是:
mi impute chained ///
(logit) C ///
(regress) X = Y X1 X2 X3 X4, ///
add(5) augment noisily rseed(123)
我的post-imputation估算命令是:
mi estimate, esampvaryok post: regress Y X Z if C==0
我使用esampvaryok来强制估计。默认情况下,当估算样本在多次插补数据集中变化时,Stata会返回错误。这将在这里发生,因为调节变量C被估算,并且估算值的分布因插补而变化。
即使指定了esampvaryok,Stata也会返回以下警告:
警告:估算样本因插补而异;结果可能有偏见。 样本量在643到680之间变化。
虽然令人担忧,但我的实质性研究问题要求C = 0进行估算。作为我的问题的过度简化,C代表哮喘诊断(C = 0意味着没有诊断),Z是患者呼吸呼吸困难报告的总结,X是肥胖状态。主张是,即使没有哮喘,肥胖儿童的呼吸困难(或其他哮喘症状)也可能更明显。因此,在肥胖人群中,仅靠呼吸困难不能用于诊断哮喘。
我想知道是否有任何论文可以解决这个具体问题,或者是否有人对如何处理此类案件有任何建议。
谢谢,
保