关于使用Ranger在RandomForest实现中使用预测

时间:2016-10-20 10:40:15

标签: r machine-learning neural-network random-forest prediction

概述

我正在使用游侠R中的随机森林实施对文档进行分类。

现在我面临一个问题,  系统期望Train集中的所有功能都存在于无法实现的实时数据集中,  因此我无法预测实时数据文本。

以下程序

目标:预测描述属于哪种类型(即OutputClass)

描述,功能等每个信息都转换为文档术语矩阵

列车集的文档术语矩阵

                                    rpm      Velocity     Speed           OutputClass 

      doc1                          1             0             1            fan
      doc2                          1             1             1            fan
      doc3                          1             0             1            referigirator
      doc4                          1             1             1            washing machine
      doc5                          1             1             1            washing machine

现在使用上面的矩阵训练模型

fit <- ranger(trainingColumnNames,data=trainset)
save(fit,file="C:/TrainedObject.rda”)

现在我使用上面存储的对象来预测其类类型的实时描述。

Load("C:/TrainedObject.rda”)

再次为RealTimeData构建Document矩阵。

                                            Velocity           Speed     OutputClass 

      doc5                                      0               1              fan
      doc6                                      1               1              fan
      doc7                                      0               1            referigirator
      doc8                                      1               1            washing machine
      doc9                                      1               1            washing machine

在实时数据中,没有名称“RPM”的术语或功能。  所以当我打电话预测功能

Predict(fit, RealTimeData)

显示错误,表示缺少RPM,

每次都无法在实时数据中获得列车的所有术语或特征。

我尝试在R(Ranger,RandomForest)中使用参数预测函数中的随机林实现 新数据 Predict.all treetype。

这些参数都没有帮助预测实时数据中缺失的特征。

有人请帮我解决上述问题

提前致谢

1 个答案:

答案 0 :(得分:0)

predict期待您为Ranger提供的所有功能。因此,如果您在测试集上缺少数据,则可以从列车集中删除有问题的功能并再次运行游侠或填充缺失的值。对于后一种解决方案,您可能需要查看mice包。