Question

我建立了一个随机森林模型，基于340个观测值和4个预测变量对4个类别（R，SW，UEWH，HA）进行分类。

第一个问题：这是多类分类吗？或多标签？还是多元？

各类别之间的观察结果大致平衡（请参阅混淆矩阵）。只有R类的观察较少，而类误差最大。我试图用sampsize选项来平衡它，但结果并没有得到任何改善。我也将ntree选项从500更改为4000，而模型拟合没有太大差异。

第二个问题：您认为有必要进一步微调模型吗？结果可以算是好吗？

Number of trees: 500
No. of variables tried at each split: 2
OOB estimate of  error rate: 6.76%

Confusion matrix:
      R  SW UEWH  HA   class.error
R    14   3    0   0 0.17647058824
SW    0 111    9   0 0.07500000000
UEWH  2   2   87   4 0.08421052632
HA    0   0    3 105 0.02777777778`

对多类随机森林分类进行抽样

0 个答案: