应用错误收集

我正在进行一项流行病学研究，其结果在理论上高度依赖于人口统计学变量。最近发布了一个数据库，这些结果可在区域（颗粒状）使用。但是，并非我需要的所有人口统计学变量都可以在这种规模下使用（某些变量仅在州一级可用）。您如何建议您解决这个问题？

我尝试将数据集分为状态级数据集和区域级数据集。我对两个数据集之间共享的属性使用了Kolmogorov-Smirnov检验。目的是查看是否可以将来自状态数据集的结论（较少的观察值但具有更多的属性）外推到较大数据集的任何普查区域。 p值表明可以。但是，我对方法不满意。我觉得必须有一种更好的方法来做到这一点，并且为我的目的考虑尽可能多的属性。

如何使用不同地理范围的可用数据进行加工学习？

0 个答案: