用随机森林模型预测外部数据集

时间:2016-09-18 21:40:11

标签: python

我在python中使用joblib.dump来使用随机森林从5倍交叉验证建模中保存模型。因此,我为每个数据集保存了5个模型:MDL_1.pkl, MDL_2.pkl, MDL_3.pkl, MDL_4.pkl, MDL_5.pkl。现在,当我的外部数据集中每行的最终预测是5个模型的平均值时,我想使用这些模型使用predict_proba来预测外部数据集。什么是最好的方法? 谢谢你的帮助

1 个答案:

答案 0 :(得分:0)

首先,您不应该保存交叉验证的结果。交叉验证不是一种培训方法,它是评估方案。您应该在整个数据集上构建单个模型并使用它来预测。

如果出于某种原因,你不能训练你的模型,你仍然可以通过平均它们来使用这5个预测(因为随机森林本身就是一个简单的averagin树木集合),但是回去和再训练应该给你< strong> bettter 结果。