Question

我正在参加竞赛模型，我们获得了2个数据集：

数据集A ：包含用于训练/测试模型的标签。 数据集B ：不包含标签，此数据将用于盲测，并根据预测分配分数。

我已准备好使用该模型，但是当使用函数predict()和 数据集B （用于盲测）时，出现了一个问题，Do我必须应用数据集A中应用的相同预处理步骤（删除重复项，NAs，缩放数字特征）那么NAs呢？在数据集B中查看了几个NAs。

提前感谢您的帮助。

Answer 1

我想我必须对数据集A应用相同的预处理，重复，删除NA，缩放数字特征。因为预测可能会受到影响。 Dame puntos amigo。

Answer 2

当您使用预测功能时，您需要清理数据。如果您想要删除所有的NA，可以使用completecases()功能。除非您有记录号或唯一键，否则不应删除重复项。

datasetb.2<-datasetb[completecases(datasetb), ]
predicted<-predict(datasetA.model, newdata = datasetb.2)
accuracy<-(actual==predicted)/nrow(datasetb.2)

R机器学习模型 - 盲测

2 个答案: