我有一个不平衡的数据集,其中包含分类因变量和连续且分类的特征变量。我知道DMwR软件包中的SMOTE功能只能处理连续功能。是否有可以处理分类和连续功能的软件包,例如Chawla描述in his paper?
答案 0 :(得分:0)
您可以在R中处理此问题!
是的,因为基本算法是k近邻,所以smotefamily :: SMOTE和DMwR :: SMOTE都只能处理数字特征。
因此:
将所有类别变量转换为数据类型factor
。
通过最近的软件包tidymodels::embed
tidymodels::embed
软件包提供了三种方法来执行步骤2:
documentation说这些方法
estimate the effect of each of the factor levels on the outcome and these estimates are used as the new encoding.