是否有可以使用连续和分类功能进行SMOTE的程序包或功能?

时间:2019-03-25 13:55:32

标签: r classification resampling oversampling

我有一个不平衡的数据集,其中包含分类因变量和连续且分类的特征变量。我知道DMwR软件包中的SMOTE功能只能处理连续功能。是否有可以处理分类和连续功能的软件包,例如Chawla描述in his paper

1 个答案:

答案 0 :(得分:0)

您可以在R中处理此问题!

是的,因为基本算法是k近邻,所以smotefamily :: SMOTE和DMwR :: SMOTE都只能处理数字特征。

因此:

  1. 将所有类别变量转换为数据类型factor

  2. 通过最近的软件包tidymodels::embed

  3. 计算每个因子水平的数值估计

tidymodels::embed软件包提供了三种方法来执行步骤2:

  • step_lencode_glm
  • step_lencode_bayes
  • step_lencode_mixed

documentation说这些方法 estimate the effect of each of the factor levels on the outcome and these estimates are used as the new encoding.