我有一个关于在NB分类场景中计算RMSE的非常基本的问题。我的训练数据X有1000多个评论,评分为[1,5],这是类标签Y. 所以我正在做的是这样的:
model = nb_classifier_train(trainingX,Y)
Yhat = nb_classifier_test(model,testingX)
我的测试数据有400多个评论缺失评级(我需要预测其标签/评级。现在计算RMSE
RMSE = sqrt(mean((Y - Yhat).^2))
这种情况下的Y是多少?我理解RMSE是使用预测值和实际值之间的差异来计算的。这里的实际价值是多少?还是缺少什么?
答案 0 :(得分:1)
在这种情况下,Y是训练数据的标签,因此您计算的RMSE没有多大意义,因为您正在对测试示例进行预测并与训练标签进行比较。事实上,没有理由Y和Yhat向量甚至是相同的长度。相反,您应该用测试标签替换Y,如果没有测试标签,那么您根本无法计算测试错误。