这是我遇到的问题。我希望有人能解释原因
我有一个大型数据集用于预测原始data.frame中的分类值 - L,M,H - 这是一个因素。
训练集很大,所以我没有足够的内存来训练 - 所以我拿了训练数据集的样本并创建了一个randomForest。然后我创建了一个不同的随机样本并创建了第二个森林,......它们都具有类似的性能,这是一个值得关注的问题
我在randomForest中找到了combine函数,并决定用它来组合我的模型。
然后我需要使用新模型对列车集进行评分以获得OOB估计值,然后使用我的验证样本进行评分。
我对测试集的预测有问题。
我基本上收到一条消息“eval中的错误(expr,envirmenclos):找不到对象'XXX'”其中XXX是变量名称。但这没有任何意义,因为变量永远不会改变名称
我重复了几次,以防我的数据损坏。
我知道为什么会得到这个?
答案 0 :(得分:0)
如果没有数据很难知道,但这是基于过去类似错误的预感 - 如果您正在对数据进行采样并运行单独的模型,则可能会遇到分类变量的问题,其中一个模型中的因子水平与其他模型的因子水平不匹配。可能解决此问题的方法是在运行模型之前在数据框中指定因子级别(使用级别函数)。
编辑 - 首次亮相的方法是在相同的样本数据上运行两个模型将它们组合起来并尝试应用模型并查看是否得到相同的错误..