我正在参加竞赛模型,我们获得了2个数据集:
数据集A :包含用于训练/测试模型的标签。 数据集B :不包含标签,此数据将用于盲测,并根据预测分配分数。
我已准备好使用该模型,但是当使用函数predict()
和 数据集B (用于盲测)时,出现了一个问题,Do我必须应用数据集A中应用的相同预处理步骤(删除重复项,NAs,缩放数字特征)那么NAs呢?在数据集B中查看了几个NAs。
提前感谢您的帮助。
答案 0 :(得分:0)
我想我必须对数据集A应用相同的预处理,重复,删除NA,缩放数字特征。因为预测可能会受到影响。 Dame puntos amigo。
答案 1 :(得分:0)
当您使用预测功能时,您需要清理数据。如果您想要删除所有的NA,可以使用completecases()
功能。除非您有记录号或唯一键,否则不应删除重复项。
datasetb.2<-datasetb[completecases(datasetb), ]
predicted<-predict(datasetA.model, newdata = datasetb.2)
accuracy<-(actual==predicted)/nrow(datasetb.2)