我在MATLAB(内置)中使用Naive Bayes来预测数据的类标签值。我的类标签可以包含{1,2,3,4,5}中的任何值。 我也有testLabels。 如何衡量testLabels和predictLabels差异是否良好?
我尝试使用RMSE。但似乎它给了我1.87124的价值
我不知道如何解释这个RMSE值?
此外,是否有任何标准的评估方法来评估朴素贝叶斯多类结果?
我知道二进制标签类我可以使用TPR,FPR,精度,准确度等。
答案 0 :(得分:1)
标准指标的概括可以对多类问题进行评分:准确性显然适用于多类情况,并且可以通过分别查看每个类来概括召回和精确度。查看二进制问题具有误导性,因为双向分类任务比5方式分类任务容易得多。
RMSE不是一个合适的指标---考虑一下如果你使用标签1-5,你得到的RMSE为0.74。但是,由于标签是任意的,您可以对类标签进行置换,并为相同的决策获得完全不同的RMSE。
答案 1 :(得分:0)
您可以使用各种指标。在许多情况下,准确度(即testLabel等于expectedLabel的频率)是一个很好的指标。
您还可以查看precision and recall,其中的内容类似于类型I和类型II错误。
但有一件事是肯定的 - 将RMSE应用于此案例并没有任何意义。例如,假设您使用字母A,B,C,D,E而不是数字1,2,3,4,5来标记数据。这是完全相同的问题(因为标签本身毫无意义),但现在RMSE是不可计算的,因为它只适用于数字。