过度采样多变量类

时间:2016-08-07 17:52:39

标签: random-forest multivariate-testing

我正在使用R中的Random Forest开发模型。该数据具有2000个obs x 20个特征。我尝试分类的目标类有6个级别。所有变量本质上都是分类的。

目标向一类倾斜占观察的65%以上。剩下的35%分布在其他五个目标类别中。分布如下

Class A       Class B       Class C    Class D     Class E        Class F       Class G
0.660185185    0.002314815  0.0027777  0.0722222   0.181944444    0.013425926   0.067129630 

我正在尝试使用ROSE或SMOTE来平衡数据集,但是得到的错误只能在二元分类器上起作用。

R中是否有可用于平衡多类数据集的库。目前,模型的准确性非常低(约64%)。我希望平衡数据集可能会提高准确性。

对此事的任何帮助将不胜感激。

欢呼声 -Nitin

0 个答案:

没有答案