随机森林OOB的重要性和误差估计

时间:2016-07-05 14:35:12

标签: methods tree analytics random-forest

这是我建立的模型的总结。我无法理解我的模型有多好,想知道“ OOB ”是什么意思及其意义,我想知道我怎么能说我的模型能很好地预测结果

呼叫:  randomForest(formula = Loan_Status~Dependents + ApplicantIncome + CoapplicantIncome + LoanAmount + Credit_History + Property_Area + NC,data = train_data)                随机森林类型:分类                      树木数量:500 每次拆分时尝试的变量数量:2

  OOB estimate of  error rate: 18.89%

混淆矩阵:    N Y class.error N 93 99 0.51562500 是17 405 0.04028436

1 个答案:

答案 0 :(得分:0)

您必须先了解bootstrap聚合,此处为:https://en.wikipedia.org/wiki/Bootstrap_aggregating

Out Of Bag是每个Zi(Zi =(Xi,Yi))根据其各自的bootstrap样本中不包含Zi的树的预测计算的平均误差,根据: http://scikit-learn.org/stable/auto_examples/ensemble/plot_ensemble_oob.html