我正在处理暴露组和控制组之间的匹配问题。我有一个关于使用二进制分类来解决它的想法。我将所有观察结果分配给一个类,并人工创建另一个类。例如,
假设我有一个有1000人的暴露组和一个4,000的对照组。有25个二进制配置文件
性别,年龄(18至34岁),年龄(34至55岁),年龄(超过55岁),收入(低于50,000),收入(50,00,100,000),收入(超过100,000)户外爱好者,视频游戏玩家,快餐晚餐,注重成本的购物者,......,宠物爱好者
假设所有暴露者都是男性,18-24岁,视频游戏玩家和快餐用餐者,其余21个类别各不相同。
让a1,a2,...,a1,000成为我的暴露组,所以我会把所有暴露的组都放进去 a1,a2,...,a1,000在一个类中,对于剩下的类,我将为每个曝光观察采用相反的二元选择。所以,如果
a1具有以下个人资料
Gender - Male
Age (18 to 34) - Yes
Age (34 to 55) - No
Age (over 55) - No
income (less than 50,000) - Yes
income (50,00, 100,000) – No
income (greater than 100,000) - No
outdoor enthusiast - No
video game player - Yes
fast food diner - Yes
cost conscious shopper - Yes
.
.
.
per enthusiast – No
然后,我会通过在年龄和收入的扩孔选择中随机选择对每个类别采取相反的选择,为另一个类创建一个新的观察。
Gender - Female
Age (18 to 34) - No
Age (34 to 55) - Yes
Age (over 55) - No
income (less than 50,000) - No
income (50,00, 100,000) – Yes
income (greater than 100,000) - No
outdoor enthusiast - Yes
video game player - No
fast food diner - No
cost conscious shopper - No
.
.
.
pet enthusiast – Yes
我为所有1,000次曝光的观察做了这个。然后我在这部分数据上训练一个二元分类器。
我将此应用于我的数据(远大于1000,接近1,000,00暴露)并且导致我构建的数据集上的100%分类率,并且当我使用预测方法时,它将所有成员分类为对暴露观察类别的控制(在现实生活中极不可能)。
我的问题是
1-这种方法是否有意义。
2-如果有意义,为什么所有控制成员都被分配到暴露的类?在训练集中构建另一类观测值的好方法是什么。
3-如果没有意义,那么匹配分类特征的好方法是什么?我不喜欢将它们转换为数字并使用聚类方法的想法。