应用错误收集

我有一个大型数据集，大约有200列和100万行。我有一个治疗组，我正在尝试根据大约15个不同的变量，使用倾向匹配得分创建一个对照组。

我有两个问题，我在网上找到了有冲突的答案，如果您能帮助我，我将不胜感激。

1）如何组织数据以最好地运行匹配过程？我的数据混合了数字，字符和因子（有些是有序的，有些则不是）变量，并且我在网上看到有人说MatchIt程序使用字符变量运行分析，而另一些人说它不适用于“最近”功能，但可以与其他功能一起使用。因此，我应该花点力气将所有内容都转换为数值或因子（我不确定是否有可能），还是可以对变量直接运行MatchIt？

2）是否已将功能MatchIt更新为读取不用于匹配功能的变量中的NA？我见过一些老帖子说，MatchIt需要一个COMPLETE数据集，即使对于未用于匹配的变量也是如此，但是这些帖子还说，这可能是固定的。还是这样吗？

谢谢

1）除了数据类型之外，您应该问自己的问题是，将分类数据提供给倾向得分设置有何意义。倾向得分是基于观察值之间的距离，计算分类属性之间的距离显然很困难。因此，即使从技术上来讲，MatchIt确实支持其他类型，但数字功能是唯一真正明智的数据输入。您可以选择从数据中舍弃分类数据，也可以将其转换为数字（通过创建虚拟变量并对序数特征进行数字编码）。另外，您可以使用exact函数的matchit参数保留类别特征并在这些特征上进行精确匹配（请注意，在这种情况下，您实际上不再使用倾向得分匹配。）

2）当前版本3.0.2尚未解决此问题，这显然很烦人。

如何使用MatchIt为R中的倾向得分匹配准备变量？

1 个答案: