我正在进行一项流行病学研究,其结果在理论上高度依赖于人口统计学变量。最近发布了一个数据库,这些结果可在区域(颗粒状)使用。但是,并非我需要的所有人口统计学变量都可以在这种规模下使用(某些变量仅在州一级可用)。您如何建议您解决这个问题?
我尝试将数据集分为状态级数据集和区域级数据集。我对两个数据集之间共享的属性使用了Kolmogorov-Smirnov检验。目的是查看是否可以将来自状态数据集的结论(较少的观察值但具有更多的属性)外推到较大数据集的任何普查区域。 p值表明可以。但是,我对方法不满意。我觉得必须有一种更好的方法来做到这一点,并且为我的目的考虑尽可能多的属性。