Question

道歉，如果这更像是一个统计问题。

我目前正在处理我试图在Stata中解决的多重插补问题。在插补阶段之后，我想估计E（Y，X，Z | C = 1），其中Y和Z是完整的，X和C都是不完全变量，其缺失值是多次估算的。

在Stata中，我的多重插补命令是：

mi impute chained ///
(logit)  C ///
(regress) X = Y X1 X2 X3 X4, ///
 add(5) augment noisily rseed(123)

我的post-imputation估算命令是：

mi estimate, esampvaryok post: regress Y X Z if C==0

我使用esampvaryok来强制估计。默认情况下，当估算样本在多次插补数据集中变化时，Stata会返回错误。这将在这里发生，因为调节变量C被估算，并且估算值的分布因插补而变化。

即使指定了esampvaryok，Stata也会返回以下警告：

警告：估算样本因插补而异;结果可能有偏见。样本量在643到680之间变化。

虽然令人担忧，但我的实质性研究问题要求C = 0进行估算。作为我的问题的过度简化，C代表哮喘诊断（C = 0意味着没有诊断），Z是患者呼吸呼吸困难报告的总结，X是肥胖状态。主张是，即使没有哮喘，肥胖儿童的呼吸困难（或其他哮喘症状）也可能更明显。因此，在肥胖人群中，仅靠呼吸困难不能用于诊断哮喘。

我想知道是否有任何论文可以解决这个具体问题，或者是否有人对如何处理此类案件有任何建议。

谢谢，

保