如何使用MatchIt为R中的倾向得分匹配准备变量?

时间:2020-01-08 17:29:55

标签: r propensity-score-matching

我有一个大型数据集,大约有200列和100万行。我有一个治疗组,我正在尝试根据大约15个不同的变量,使用倾向匹配得分创建一个对照组。

我有两个问题,我在网上找到了有冲突的答案,如果您能帮助我,我将不胜感激。

1)如何组织数据以最好地运行匹配过程?我的数据混合了数字,字符和因子(有些是有序的,有些则不是)变量,并且我在网上看到有人说MatchIt程序使用字符变量运行分析,而另一些人说它不适用于“最近”功能,但可以与其他功能一起使用。因此,我应该花点力气将所有内容都转换为数值或因子(我不确定是否有可能),还是可以对变量直接运行MatchIt?

2)是否已将功能MatchIt更新为读取不用于匹配功能的变量中的NA?我见过一些老帖子说,MatchIt需要一个COMPLETE数据集,即使对于未用于匹配的变量也是如此,但是这些帖子还说,这可能是固定的。还是这样吗?

谢谢

1 个答案:

答案 0 :(得分:1)

1)除了数据类型之外,您应该问自己的问题是,将分类数据提供给倾向得分设置有何意义。倾向得分是基于观察值之间的距离,计算分类属性之间的距离显然很困难。因此,即使从技术上来讲,MatchIt确实支持其他类型,但数字功能是唯一真正明智的数据输入。您可以选择从数据中舍弃分类数据,也可以将其转换为数字(通过创建虚拟变量并对序数特征进行数字编码)。另外,您可以使用exact函数的matchit参数保留类别特征并在这些特征上进行精确匹配(请注意,在这种情况下,您实际上不再使用倾向得分匹配。)

2)当前版本3.0.2尚未解决此问题,这显然很烦人。