我有一个大型数据集,大约有200列和100万行。我有一个治疗组,我正在尝试根据大约15个不同的变量,使用倾向匹配得分创建一个对照组。
我有两个问题,我在网上找到了有冲突的答案,如果您能帮助我,我将不胜感激。
1)如何组织数据以最好地运行匹配过程?我的数据混合了数字,字符和因子(有些是有序的,有些则不是)变量,并且我在网上看到有人说MatchIt程序使用字符变量运行分析,而另一些人说它不适用于“最近”功能,但可以与其他功能一起使用。因此,我应该花点力气将所有内容都转换为数值或因子(我不确定是否有可能),还是可以对变量直接运行MatchIt?
2)是否已将功能MatchIt更新为读取不用于匹配功能的变量中的NA?我见过一些老帖子说,MatchIt需要一个COMPLETE数据集,即使对于未用于匹配的变量也是如此,但是这些帖子还说,这可能是固定的。还是这样吗?
谢谢
答案 0 :(得分:1)
1)除了数据类型之外,您应该问自己的问题是,将分类数据提供给倾向得分设置有何意义。倾向得分是基于观察值之间的距离,计算分类属性之间的距离显然很困难。因此,即使从技术上来讲,MatchIt
确实支持其他类型,但数字功能是唯一真正明智的数据输入。您可以选择从数据中舍弃分类数据,也可以将其转换为数字(通过创建虚拟变量并对序数特征进行数字编码)。另外,您可以使用exact
函数的matchit
参数保留类别特征并在这些特征上进行精确匹配(请注意,在这种情况下,您实际上不再使用倾向得分匹配。)
2)当前版本3.0.2尚未解决此问题,这显然很烦人。