概述
我正在使用游侠R中的随机森林实施对文档进行分类。
现在我面临一个问题, 系统期望Train集中的所有功能都存在于无法实现的实时数据集中, 因此我无法预测实时数据文本。
以下程序
目标:预测描述属于哪种类型(即OutputClass)
描述,功能等每个信息都转换为文档术语矩阵
列车集的文档术语矩阵
rpm Velocity Speed OutputClass
doc1 1 0 1 fan
doc2 1 1 1 fan
doc3 1 0 1 referigirator
doc4 1 1 1 washing machine
doc5 1 1 1 washing machine
现在使用上面的矩阵训练模型
fit <- ranger(trainingColumnNames,data=trainset)
save(fit,file="C:/TrainedObject.rda”)
现在我使用上面存储的对象来预测其类类型的实时描述。
Load("C:/TrainedObject.rda”)
再次为RealTimeData构建Document矩阵。
Velocity Speed OutputClass
doc5 0 1 fan
doc6 1 1 fan
doc7 0 1 referigirator
doc8 1 1 washing machine
doc9 1 1 washing machine
在实时数据中,没有名称“RPM”的术语或功能。 所以当我打电话预测功能
Predict(fit, RealTimeData)
显示错误,表示缺少RPM,
每次都无法在实时数据中获得列车的所有术语或特征。
我尝试在R(Ranger,RandomForest)中使用参数预测函数中的随机林实现 新数据 Predict.all treetype。
这些参数都没有帮助预测实时数据中缺失的特征。
有人请帮我解决上述问题提前致谢
答案 0 :(得分:0)
predict
期待您为Ranger提供的所有功能。因此,如果您在测试集上缺少数据,则可以从列车集中删除有问题的功能并再次运行游侠或填充缺失的值。对于后一种解决方案,您可能需要查看mice
包。