使用SMOTE平衡包含案例权重的不平衡数据集

时间:2016-10-20 01:52:27

标签: r classification r-caret

我一直在对10K客户进行调查,这些客户已分成几个客户群。现在由于实际完成调查的受访者的性质,进行定性工作的研究人员应用了案例权重(也称为概率权重),并向所有客户提供了8个类别标签之一的数据。所以我们有一个多层次的问题,这当然是非常不平衡的。

我采取的一种方法是将这些类分解为成对模型,这些模型都有助于最终投票。现在我的问题有两个:

  1. 我正在使用精彩的SMOTE包来平衡每个模型以解决类不平衡问题。但是,由于每个客户记录都有相关的案件重量,SMOTE正在平等地对待每个客户。在应用SMOTE之后,这些类现在看起来是相同的,但是如果你考虑相应的案例权重它实际上不是。
  2. 我的第二个问题与我的策略有关。我是否应该不必担心我的案例权重,只需在原始未加权数据上构建我的分类模型,即使它不代表我想要分类到每个细分市场的总客户群。
  3. 我一直在使用R caret包来构建这些多元二元分类器。

    此致

0 个答案:

没有答案