随机森林中每棵树的平均绝对误差

时间:2013-10-17 17:46:00

标签: statistics machine-learning classification weka random-forest

我使用weka的评估类作为随机森林中每个生成树的平均绝对误差。解释说“指的是数值类的预测值的误差,以及名义类别的预测概率分布的误差。”

有人可以用简单的词语或可能用一个例子来解释它吗?

1 个答案:

答案 0 :(得分:1)

平均绝对误差表示您的预测平均与测试数据的实际值有多接近。

对于数字课程,这很容易思考 示例:

  

真值:{0,1,4}
  预测值:{1,3,1}   差异:{-1,-2,3}(从真实中减去预测)
  绝对差异:{1,2,3}
  平均绝对差值:(1 + 2 + 3)/ 3 = 2

对于名义类,预测不再是单个值,而是属于不同可能类的实例的概率分布。提供的示例将有两个类 示例:

  

符号:[0.5,0.5]表示属于Y类的几率为50%的实例,属于X类的几率为50%。

     

真正的分布:{[0,1],[1,0]}
  预测分布:{[0.25,0.75],[1,0]}
  差异:{[ - 0.25,0.25],[0,0]}
  绝对差异:{(0.25 + 0.25)/ 2,(0 + 0)/ 2} = {0.25,0}
  平均绝对差:(0.25 + 0)/ 2 = 0.125

You can double check my explanation by visiting the source code for Weka's evaluation class.
另外作为旁注,我相信Weka报告的随机森林的平均绝对差异是整个森林,而不是单个树木。