应用错误收集

用随机森林模型预测外部数据集

时间：2016-09-18 21:40:11

标签： python

我在python中使用joblib.dump来使用随机森林从5倍交叉验证建模中保存模型。因此，我为每个数据集保存了5个模型：MDL_1.pkl, MDL_2.pkl, MDL_3.pkl, MDL_4.pkl, MDL_5.pkl。现在，当我的外部数据集中每行的最终预测是5个模型的平均值时，我想使用这些模型使用predict_proba来预测外部数据集。什么是最好的方法？谢谢你的帮助

1 个答案:

答案 0 :(得分：0)

首先，您不应该保存交叉验证的结果。交叉验证不是一种培训方法，它是评估方案。您应该在整个数据集上构建单个模型并使用它来预测。

如果出于某种原因，你不能训练你的模型，你仍然可以通过平均它们来使用这5个预测（因为随机森林本身就是一个简单的averagin树木集合），但是回去和再训练应该给你< strong> bettter 结果。

R-随机森林预测因预测因子中的NA而失败
输出从R中的随机森林数组预测
随机森林用于非常大的数据集
R中有大型数据集的随机森林（Rborist）
用随机森林模型预测外部数据集
Predict_proba（）的随机森林分类器结果与predict（）不匹配？
随机森林预测
随机森林sklearn-等于预测值
我如何从随机森林中提取系数（预测函数）
随机森林的不同预测结果

我写了这段代码，但我无法理解我的错误
我无法从一个代码实例的列表中删除 None 值，但我可以在另一个实例中。为什么它适用于一个细分市场而不适用于另一个细分市场？
是否有可能使 loadstring 不可能等于打印？卢阿
java中的random.expovariate()
Appscript 通过会议在 Google 日历中发送电子邮件和创建活动
为什么我的 Onclick 箭头功能在 React 中不起作用？
在此代码中是否有使用“this”的替代方法？
在 SQL Server 和 PostgreSQL 上查询，我如何从第一个表获得第二个表的可视化
每千个数字得到
更新了城市边界 KML 文件的来源？