我有两个不平衡类的分类任务。我想使用合成少数派过度采样(SMOTE)为少数派类别创建其他样本。我的数据集中有连续的和分类的特征(字符变量)。
起初,我使用了DMwR软件包中的SMOTE函数,但在哪里找不到SMOTE如何处理分类功能。据我了解,该函数计算观察值之间的欧几里得距离,这不适用于因子。
UBL软件包中的SmoteClassif函数可让您选择要使用的距离度量。 (dist =) 其中一些指标适用于纯数字数据,某些指标仅适用于名义数据,而某些则适用于数据集包含名义变量和数字变量的情况。
我的问题是这两个功能之间的区别是什么,特别是在处理分类特征方面。
如果有人对此有经验,我将不胜感激。