对多类随机森林分类进行抽样

时间:2018-06-25 11:04:48

标签: r

我建立了一个随机森林模型,基于340个观测值和4个预测变量对4个类别(R,SW,UEWH,HA)进行分类。

第一个问题:这是多类分类吗?或多标签?还是多元?

各类别之间的观察结果大致平衡(请参阅混淆矩阵)。只有R类的观察较少,而类误差最大。我试图用sampsize选项来平衡它,但结果并没有得到任何改善。我也将ntree选项从500更改为4000,而模型拟合没有太大差异。

第二个问题:您认为有必要进一步微调模型吗?结果可以算是好吗?

Number of trees: 500
No. of variables tried at each split: 2
OOB estimate of  error rate: 6.76%

Confusion matrix:
      R  SW UEWH  HA   class.error
R    14   3    0   0 0.17647058824
SW    0 111    9   0 0.07500000000
UEWH  2   2   87   4 0.08421052632
HA    0   0    3 105 0.02777777778`

0 个答案:

没有答案