我在python中使用joblib.dump
来使用随机森林从5倍交叉验证建模中保存模型。因此,我为每个数据集保存了5个模型:MDL_1.pkl, MDL_2.pkl, MDL_3.pkl, MDL_4.pkl, MDL_5.pkl
。现在,当我的外部数据集中每行的最终预测是5个模型的平均值时,我想使用这些模型使用predict_proba
来预测外部数据集。什么是最好的方法?
谢谢你的帮助
答案 0 :(得分:0)
首先,您不应该保存交叉验证的结果。交叉验证不是一种培训方法,它是评估方案。您应该在整个数据集上构建单个模型并使用它来预测。
如果出于某种原因,你不能训练你的模型,你仍然可以通过平均它们来使用这5个预测(因为随机森林本身就是一个简单的averagin树木集合),但是回去和再训练应该给你< strong> bettter 结果。