Question

我有一个关于在NB分类场景中计算RMSE的非常基本的问题。我的训练数据X有1000多个评论，评分为[1,5]，这是类标签Y. 所以我正在做的是这样的：

model = nb_classifier_train(trainingX,Y)
Yhat = nb_classifier_test(model,testingX)

我的测试数据有400多个评论缺失评级（我需要预测其标签/评级。现在计算RMSE

RMSE = sqrt(mean((Y - Yhat).^2))

这种情况下的Y是多少？我理解RMSE是使用预测值和实际值之间的差异来计算的。这里的实际价值是多少？还是缺少什么？

Answer 1

在这种情况下，Y是训练数据的标签，因此您计算的RMSE没有多大意义，因为您正在对测试示例进行预测并与训练标签进行比较。事实上，没有理由Y和Yhat向量甚至是相同的长度。相反，您应该用测试标签替换Y，如果没有测试标签，那么您根本无法计算测试错误。