R机器学习模型 - 盲测

时间:2017-10-04 01:32:07

标签: r machine-learning

我正在参加竞赛模型,我们获得了2个数据集:

数据集A :包含用于训练/测试模型的标签。 数据集B :不包含标签,此数据将用于盲测,并根据预测分配分数。

我已准备好使用该模型,但是当使用函数predict() 数据集B (用于盲测)时,出现了一个问题,Do我必须应用数据集A中应用的相同预处理步骤(删除重复项,NAs,缩放数字特征)那么NAs呢?在数据集B中查看了几个NAs。

提前感谢您的帮助。

2 个答案:

答案 0 :(得分:0)

我想我必须对数据集A应用相同的预处理,重复,删除NA,缩放数字特征。因为预测可能会受到影响。 Dame puntos amigo。

答案 1 :(得分:0)

当您使用预测功能时,您需要清理数据。如果您想要删除所有的NA,可以使用completecases()功能。除非您有记录号或唯一键,否则不应删除重复项。

datasetb.2<-datasetb[completecases(datasetb), ]
predicted<-predict(datasetA.model, newdata = datasetb.2)
accuracy<-(actual==predicted)/nrow(datasetb.2)